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提要 





本 书 旨 在 帮助 读者 从 去 开始 快速 掌握 Flink 的 基 
本 原理 与 核心 功能 。 本 书 首 先 介绍 了 Flink 的 基本 原 
理 和 安装 部 署 ， 并 对 Flink 中 的 一 些 核心 API 进 行 了 
详细 分 析 。 然 后 配套 对 应 的 案例 分 析 ， 分 别 使 用 
Java 代 码 和 Scala 代 码 实现 案例 。 最 后 通过 两 个 项 目 
演示 了 Flink 在 实际 工作 中 的 一 些 应 用 场景 ， 帮 助 读 
者 快速 掌握 Flink 开 发 。 








学 习 本 书 需 要 大 家 具备 一 些 大 数据 的 基础 知 
识 ， 比 如 Hadoop、Kafka、Redis、Elasticsearch 等 框 
染 的 基本 安装 和 使 用 。 本 书 也 适合 对 大 数据 实时 计 
算 感 兴趣 的 读者 阅读 。 
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Flink 项 目 是 大 数据 计算 领域 冉冉 升 起 的 一 颗 新 
E. KEG TT S| BE CHEZ ILIE, ME 
1 代 的 MapReduce， 到 第 2 代 基 于 有 问 无 环 网 的 
Tez， 第 3 代 基 于 内 存 计算 的 Spark， 再 到 第 4 代 的 
Flink。 因 为 Flink 可 以 基于 Hadoop 进 行 开 及 和 使 
用 ， 所 以 Flink 并 不 会 取代 Hadoop， 而 是 和 Hadoop 


Ie ope LEA 
紧密 结合 。 











Flink 主 要 包括 DataStream API. DataSet API. 
Table API, SQL. Graph API 和 FlinkML 等 。 现 在 
Flink 也 有 上 自己 的 生态 圈 ， 涉 及 离线 数据 处 理 、 实 时 
数据 处 理 、SQL 操 作 、 图 计算 和 机 器 学 习 库 等 。 


本 书 共 分 11 划 ， 每 草 的 主要 内 容 如 下 。 


第 1 一 2 章 主要 针对 Flink 的 原理 组 件 进 行 分 析 ， 
其 中 包括 针对 Storm、Spark Streaming 和 Flink 这 3 个 
实时 计算 框架 进行 对 比 和 分 析 ， 以 及 快速 实现 Flink 
的 入 门 案 例 开发 。 





第 3 章 主 要 介绍 Flink 的 安装 部 署 ， 包 仿 Flink 的 
几 种 部 署 模式 : 本 地 模式 、Standalone 模 式 和 YARN 
模式 。 本 章 主要 针对 YARN 模 式 进行 了 详细 分 析 ， 
因为 在 实际 工作 中 以 YARN 模 式 为 主 ， 这 样 可 以 充 
分 利用 现 有 集群 资源 。 








第 4 章 主要 针对 DataStream 和 DataSet 中 的 相关 
组 件 及 API 进 行 详细 分 析 ， 并 对 Table API 和 SQL 操 
作 进 行 了 基本 的 分 析 。 


第 5 一 9 章 主要 针对 Flink 的 一 些 高 级 特性 进行 了 
详细 的 分 析 ， 包含 Broadcast、 Accumulator. 


Distributed Cache, State. CheckPoint, 


StateBackend. SavePoint. Window, Time, 


Watermark 以 及 Flink 中 的 并 行 度 。 


第 10 章 主要 介绍 常用 组 件 Kafka-Connector， 人 针 
对 Kafka Consumer#ll Kafka Producer 的 使 用 结合 具体 
案例 进行 分 析 ， 并 摘 述 了 Kafka 的 容错 机 制 的 应 
用 。 


第 11 章 介绍 Flink 在 实际 工作 中 的 两 个 应 用 场 
景 ;= 个 是 实时 数据 清 尝 (实时 ETL), 为 一 个 是 实 
时 数据 报表 ， 通 过 这 两 个 项 目 实战 可 以 加 深 对 Flink 
的 理解 。 











感谢 所 有 在 本 书 编写 过 程 中 提出 宝 喧 意见 的 朋 
友 。 作 者 水 平 有 限 ， 书 中 如 有 不 足 之 处 还 望 指 出 并 
反馈 至 邮箱 xuwei@xuwei.tech， 作 者 将 不 胜 感激 。 
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配套 资源 


本 书 提 供 如 下 资源 : 





本 书 配 套 资 源 请 到 异步 社区 本 书 购买 页 处 下 
载 。 


要 获得 以 上 配套 资源 ， 请 在 异步 社区 本 书页 面 
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提交 勘误 
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给 我 们 ， 帮 助 我 们 提升 图 书 的 质量 。 





当 您 发 现 错误 时 ， 请 登录 异步 社区 ， 控 书 名 搜 
索 ， 进 入 本 书页 面 ， 早 击 “ 提 交 勘 误 ”"， 输 入 勘误 信 
思 ， 单 击 “ 提 交 ” 按 钮 即 可 《〈 见 下 图 ) 。 本 书 的 作者 
和 编辑 会 对 您 所 交 的 勘误 进行 审核 ， 确 认 并 接受 
后 ， 您 将 获 赠 异步 社区 的 100 积 分 。 积 分 可 用 于 在 
异步 社区 郊 换 优惠 其 、 样 书 或 奖品 。 

















与 我 们 联系 
我 们 的 联系 邮箱 是 contact@epubit.com.cn。 


如 果 您 对 本 书 有 任何 疑问 或 建议 ， 请 您 及 邮件 
给 我 们 ， 并 请 在 邮件 标题 中 注 明 本 书 书 名 ， 以 便 我 
们 更 高 效 地 做 出 反馈 。 


如 果 您 有 兴趣 出 版 图 书 、 录 制 教学 视频 ， 或 者 
参与 图 书 翻译 、 技 术 审 校 等 工作 ， 可 以 友 邮 件 给 我 
们 ， 有 意 出 版 图 书 的 作者 也 可 以 到 异步 社区 在 线 提 
交 投 稿 〈 直 接 访问 


www.epubit.comy/selfpublish/submission 即 可 ) 。 














如 果 所 在 的 学 校 、 塔 训 机 构 或 企业 想 批 量 购买 
本 书 ， 或 异步 社区 出 版 的 其 他 图 书 ， 也 可 以 发 邮件 
给 我 们 。 








如 果 您 在 网 上 发 现 有 和 针对 异步 社区 出 品 图 书 的 
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微 信服 务 号 


第 1 音 Flink 


本 章 讲解 Flink 的 基本 原理 ， 主 要 包含 Flink 原 理 

染 构 分 析 、Flink 组 件 介 绍 、Flink 中 的 法 处 理 和 批 

处 理 的 对 比 、Flink 的 一 些 典 型 应 用 场景 分 析 ， 以 及 
Flink 和 其 他 流 式 计算 框架 的 区 别 等 。 





1.1 Flink 原 理 分 析 


很 多 人 是 在 2015 年 才 听 到 Flink 这 个 词 的 ， 其 实 
早 在 2008 年 ，Flink 的 前 身 惑 已 经 是 柏林 理工 大 学 的 
一 个 研究 性 项 目 ， 在 2014 年 这 个 项 目 被 Apache 孵 化 
器 所 接受 后 ，Flink 迅 速成 为 ASF (Apache Software 
Foundation〉 的 顶级 项 目 之 一 。 截 全 目前 ，Flink 的 
WA Zea [BREE ASSET LOMAS HE 





Flink 是 一 个 开源 的 流 处 理 框架 ， 它 共有 以 下 特 
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。 分布 式 : Flink 程 序 可 以 运行 在 多 人 台 机 器 上 。 

。 高 性 能 : 处 理性 能 比较 高 。 

高 可 用 : 由 于 Flink 程 序 本 里 是 稳定 的 ， 因 此 它 
支持 高 可 用 性 (High Availability, HA) 。 

o ETA: Flink 可 以 保证 数据 处 理 的 准确 性 。 





Flink 主 要 由 Java 代 码 实现 ， 它 同时 支持 实时 流 
处 理 和 批 处 理 。 对 于 Flink 而 言 ， 作 为 一 个 流 处 理 框 
架 ， 批 数据 只 是 流 数 据 的 一 个 极限 特例 而 已 。 此 
外 ，Flink 还 支持 迭代 计算 、 内 存 管 理 和 程序 优化 ， 


这 是 它 的 原生 特性 。 





由 图 1.1 可 知 ，Flink 的 功能 特性 如 下 。 


。 流 式 优先 : Flink 可 以 连续 处 理 流 式 数 据 。 
。 容错 : Flink 提 供 有 状态 的 计算 ， 可 以 记录 数据 
的 处 理 状 态 ， 当 数据 处 理 失 败 的 时 候 ， 能 够 无 
缝 地 从 失败 中 恢复 ， 并 保持 Exactly-once。 








。 可 伸缩 : Flink 中 的 一 个 集群 支持 上 干 个 市 点 。 
。 人 性 能 : Flink ffm, (KEIR. 





应 用 应 用 
流 式 优先 
数据 库 == 连续 处 理 _ 数据 库 
有 状态 的 计算 
| 可 伸缩 -一 文件 系统 和 存储 
可 支持 上 千 个 节点 
性 能 
| 高 吞吐 、 低 延迟 | 日 志 消 息 








图 1.1 ”Flink 的 功能 特性 


在 这 里 解释 一 下 ， 高 吞吐 表示 单位 时 间 内 可 以 
处 理 的 数据 量 很 大 ， 低 延迟 表示 数据 产生 以 后 可 以 
在 很 短 的 时 间 内 对 其 进行 处 理 ， 也 就 是 Flink 可 以 文 
持 快速 地 处 理 海量 数据 。 





1.2 Elink 架 构 分 析 


Flink 架 构 可 以 分 为 4 层 ， 包 括 Deploy 层 、Core 
层 、API 层 和 Library 层 ， 如 图 1.2 所 示 。 


e Deploy: 该 层 主要 涉及 Flink 的 部 蓟 模 式 ， 
Flink 文 持 多 种 部 署 模 陈 一 一 本 地 、 集 群 
(Standalone/YARN) 和 云 服务 器 

(GCE/EC2) 。 

Core 层 : 该 层 提 供 了 文 持 Plink 计 算 的 全 部 核心 
实现 ， 为 API 层 提供 基础 服务 。 

API 层 : 该 层 主 要 实现 了 面 癌 无 界 Stream 的 流 处 
理 和 面向 Batch 的 批 处 理 API， 其 中 流 处 理 对 应 
DataStream API， 批 处 理 对 应 DataSet API. 
Library 层 : 该 层 也 被 称 为 Flink 应 用 框架 层 ， 根 
据 API 层 的 划分 ， 在 API 层 之 上 构建 的 满足 特定 
应 用 的 实现 计算 框架 ， 也 分 别 对 应 于 面 癌 流 处 
理 和 面 癌 批 处 理 两 类 。 面 回流 处 理 文 持 CEP《〈 复 
杂事 件 处 理 ) 、 基 于 SQL-like 的 操作 (基于 
Table 的 关系 操作 ) ; 面向 批 处 理 支 持 
FlinkML (机 器 学 习 库 ) ~ Gely (KAH) 、 
Table 操作 。 




















从 图 1.2 可 知 ， Flink 对 底层 的 一 些 操作 进行 了 
封装 ， 为 用 户 提 供 了 DataStream API 和 DataSet 


API。 使 用 这 些 API 可 以 很 方便 地 完成 一 些 流 数据 处 
理 任 务 和 批 数据 处 理 任务 。 


API 层 和 Lirary 层 


层 





Deplng 层 Lace 


图 1.2 ”Flink 架 构 


1.3 Flink 基 本 组 件 


读者 应 该 对 Hadoop 和 Storm 程 序 有 所 了 解 ， 在 
Hadoop 中 实现 一 个 MapReduce 需 要 两 个 阶段 一 一 
Map 和 Reduce， 而 在 Storm 中 实现 一 个 Topology 则 需 
要 Spout 和 Bolt 组 件 。 因 此 ， 如 果 我 们 想 实 现 一 个 
Flink 任 务 的 话 ， 也 需要 有 类似 的 逻辑 。 


Flink 中 提供 了 3 个 组 件 ， 包 括 DataSource、 


Transformation#! DataSink. 


DataSource: 表示 数据 源 组 件 ， 主 要 用 来 接收 数 
据 ， 目 前 官网 提供 了 readTextFile、 
socketTextStream、fromCollection 以 及 一 些 第 三 
方 的 Source。 

Transformation: 表示 算 子 ， 主 要 用 来 对 数据 进 
行 处 理 ， 比 如 Map、FlatMap、Filter、Reduce、 
Aggregation 等 。 

DataSink: 表示 输出 组 件 ， 主 要 用 来 把 计算 的 结 
果 输 出 到 其 他 存储 介质 中 ， 比 如 writeAsText 以 
及 Kafka、Redis、Elasticsearch 等 第 三 方 Sink 组 
件 。 








因此 ， 想 要 组 装 一 个 Flink Job， 至 少 需 要 这 3 个 
组 件 。 


Flink Job=DataSource+Transformation+DataSink 


1.4 Flink Ah (Streaming) 与 批 处 理 
(Batch ) 


在 大 数据 处 理 领 域 ， 批 处 理 与 流 处 理 一 般 被 认 
为 是 两 种 截然 不 同 的 任务 ， 一 个 大 数据 框架 一 般 会 
被 设计 为 只 能 处 理 其 中 一 种 任务 。 比 如 ，Storm 只 
文 持 流 处 理 任 务 ， 而 MapReduce、Spark 只 文 持 批 处 
理 任 务 。Spark Streaming 是 Apache Spark 之 上 支持 
流 处 理 任 务 的 子 系统 ， 这 看 似 是 一 个 特例 ， 其 实 不 
YX Spark Streaming 采 用 了 一 种 Micro-Batch 架 
构 ， 即 把 输入 的 数据 流 切 分 成 细 粒 上 度 的 Batch， 并 
为 每 一 个 Batch 数 据 提交 一 个 批 处 理 的 Spark 任 务 ， 
所 以 Spark Streaming 本 质 上 还 是 基于 Spark 批 处 理 系 
统 对 流 式 数据 进行 处 理 ， 和 Storm 等 完全 流 式 的 数 
据 处 理 方式 完全 不 同 。 


通过 灵活 的 执行 引擎 ，Flink 能 够 同时 支持 批 处 
理 任务 与 流 处 理 任务 。 在 执行 引擎 层级 ， 流 处 理 系 








统 与 批 处 理 系统 最 大 的 不 同 在 于 节点 间 的 数据 传输 
方式 。 





如 图 1.3 所 示 ， 对 于 一 个 流 处 理 系 统 ， 其 和 点 间 
数据 传输 的 标准 模型 是 ， 在 处 理 完成 一 条 数据 后 ， 
将 其 序列 化 到 绥 存 中 ， 并 立刻 通过 网 络 传 输 到 下 一 
个 节点 ， 由 下 一 个 节点 继续 处 理 。 而 对 于 一 个 批 处 
理 系 统 ， 其 市 点 间 数 据 传输 的 标准 模型 是 ， 在 处 理 
完成 一 条 数据 后 ， 将 其 序列 化 到 缓存 中 ， 当 缓存 写 
满 时 ， 就 持久 化 到 本 地 人 硬盘 上 ;， 在 所 有 数据 都 被 处 
理 完 成 后 ， 才 开始 将 其 通过 网 络 传输 到 下 一 个 节 
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一 条 一 条 处 理 一 批 一 批 处 理 自己 控制 缓冲 区 大 小 


图 1.3 ”Flink 的 3 种 数据 传输 模型 


a 














这 两 种 数据 传输 模式 是 两 个 极端 ， 对 应 的 是 流 
处 理 系统 对 低 延 迟 和 批 处 理 系 统 对 高 吞吐 的 要 求 。 
Flink 的 执行 引擎 采用 了 一 种 十 分 灵活 的 方式 ， 同 时 
文 持 了 这 两 种 数据 传输 模型 。 


Flink 以 固定 的 绥 存 块 为 单位 进行 网 络 数 据 传 
得 ， 用 户 可 以 通过 设置 缓存 其 超时 值 指定 缓存 块 的 
传输 时 机 。 如 末 绥 存世 的 超时 值 为 0， 则 Flink 的 数 
据 传 输 方 式 类 似 于 前 面 所 提 到 的 流 处 理 系统 的 标准 
模型 ， 此 时 系统 可 以 获得 最 低 的 处 理 延迟 ， 如 来 绥 





存 块 的 超时 值 为 无 限 大 ， 则 Flink 的 数据 传输 方式 类 
似 于 前 面 所 提 到 的 批 处 理 系 统 的 标准 模型 ， 此 时 系 
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1.5 Flink 典 型 应 用 场景 分 析 


Flink 主 要 应 用 于 流 式 数据 分 析 场 景 ， 目 前 涉及 
如 下 领域 。 


。 实 时 ETL: 集成 流 计算 现 有 的 诺 多 数据 通道 和 
SQL 灵活 的 加 工 能 力 ， 对 流 式 数据 进行 实时 清 
洗 、 归 并 和 结构 化 处 理 ， 同 时 ， 对 离线 数 仓 进 
行 有 效 的 补充 和 优化 ， 并 为 数据 实时 传输 提供 





可 计算 通道 。 

实时 报表 : 实时 化 采集 、 加 工 流 式 数据 存储 ; 
实时 监控 和 展现 业务 、 客 户 各 类 指标 ， 让 数据 
化 运营 实时 化 。 

监控 预警 对 系统 和 用 户 行 为 进行 实时 检测 和 
DI, UAE RI ACI AT Ay 

在 线 系统 : 实时 计算 各 类 数据 指标 ， 并 利用 实 
时 结果 及 时 调整 在 线 系统 的 相关 策略 ， 在 各 类 
内 容 投放 、 无 线 知 能 推送 领域 有 大 量 的 应 用 。 


Flink 在 如 下 类 型 的 公司 中 有 其 体 的 应 用 。 





优化 电 丙 网 站 的 实时 搜索 结果 : 阿里 巴巴 的 基 
础 设施 团队 使 用 Flink 实 时 更 新 产品 细节 和 库存 
言 息 (Blink) 。 

针对 数据 分 析 团 队 提 供 实 时 法 处 理 服 务 : 通过 
Flink 数 据 分 析 平 台 提 供 实时 数据 分 析 服 务 ， 及 
时 发 现 问题 。 

网 络 /传感器 检测 和 错误 检测 : Bouygues 电 信 公 
司 是 法 国 闭 名 的 电信 供应 隘 ， 使 用 Flink 监 控 其 
有 线 和 无 线 网 络 ， 实 现 快 速 故障 响应 。 





。 商业 智能 分 析 ETL: Zalando 使 用 Flink 转 换 数 据 
以 便于 将 其 加 载 到 数据 仓库 ， 简 化 复杂 的 转换 
操作 ， 并 确保 分 析 终 端 用 户 可 以 更 快 地 访问 数 
据 《〈 实 时 ETL ) 。 


1.6 ” 流 式 计算 框架 对 比 


Storm 古 比较 早 的 流 式 计算 框 染 ， 后 来 义 出 现 
J Spark Streaming 和 Trident， 现 在 义 出 现 了 Flink 这 
种 优秀 的 实时 计算 框架 ， 那 么 这 几 种 计算 框架 到 旋 
AAR ANNE? 下 面 我 们 来 详细 分 析 一 下 ， 如 表 1.1 
所 示 。 
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在 这 里 对 这 几 种 框架 进行 对 比 。 




















。 模 型: Storm 和 Flink 是 真正 的 一 条 一 条 处 理 数 
据 ; 而 Trident (Storm REA) 和 Spark 
Streaming 其 实 都 是 小 批 处 理 ， 一 次 处 理 一 批 数 
m ChE) 。 

e API: Storm 和 和 Trident 都 使 用 基础 API 进 行 开 发 ， 
比如 实现 一 个 简单 的 sum 求 和 操作 ; 而 Spark 
Streaming 和 Flink 中 都 提供 封装 后 的 高 阶 函 数 ， 
可 以 直接 拿 来 使 用 ， 这 样 就 比较 方便 了 。 

。 保证 次 数 : 在 数据 处 理 方面 ，Storm 可 以 实现 至 
少 处 理 一 次 ， 但 不 能 保证 仪 处 理 一 次 ， 这 样 就 
会 导致 数据 重复 处 理 问 题 ， 所 以 针对 计数 类 的 
需求 ， 可 能 会 产生 一 些 误 兰 ; Trident 通 过 事务 
可 以 保证 对 数据 实现 仅 一 次 的 处 理 ，Spark 
Streaming 和 Flink 也 是 如 此 。 











。 容错 机 制 : Storm 和 Trident 可 以 通过 ACK 机 制 实 
现 数 据 的 容错 机 制 ， 而 Spark Streaming 和 Flink 可 
以 通过 CheckPoint 机 制 实现 容错 机 制 。 

。 状态 管理 : Storm 中 没有 实现 状态 管理 ，Spark 
Streaming 实 现 了 基于 DStream 的 状态 管理 ， 而 
Trident 和 Flink 实 现 了 基于 操作 的 状态 管理 。 

o HEI: 表示 数据 处 理 的 延 时 情况 ， 因 此 Storm 和 
Flink 接 收 到 一 条 数据 就 处 理 一 条 数据 ， 其 数据 
处 理 的 延 时 性 是 很 低 的 ;而 Trident 和 Spark 
Streaming 都 古 小 型 批 处 理 ， 它 们 数据 处 理 的 延 
时 性 相对 会 偏 蜗 。 

o ike: Storm 的 吞吐 量 其 实 也 不 低 ， 只 是 相对 
于 其 他 几 个 框架 而 言 较 低 ; Trident 属 于 中 等 ; 
而 Spark Streaming 和 Flink 的 吞吐 量 是 比较 高 的 。 























官网 中 Flink 和 Storm 的 吞吐 量 对 比如 几 1.4 所 





人 小。 





全 吞吐 量 下 的 延迟 
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图 1.4 Flink 和 Storm 的 吞吐 量 对 比 
1.7 工作 中 如 何 选 择 实时 计算 框架 


前 面 我 们 分 析 了 3 种 实时 计算 框架 ， 那 么 公司 
在 实际 操作 时 到 撒 选 择 哪 种 技术 框架 呢 ? 下面 我 们 
KANT — F 








。 i EAE EB m ET AS EE, OR 
是 ， 那 么 只 能 在 Trident、Spark Streaming Flink 
中 选择 一 个 。 

。 需 要 考虑 项 目 对 At-least-once 〈 至 少 一 次 ) 或 者 
Exactly-once 〈 仅 一 次 ) 消息 投递 模式 是 否 有 特 
殊 要 求 ， 如 果 必 须要 保证 仪 一 次 ， 也 不 能 选择 


Storm. 





。 对 于 小 型 独立 的 项 目 ， 并 且 需 要 低 延 迟 的 场 
景 ， 建 议 使 用 Storm， 这 样 比 较 简 单 。 

。 如 果 你 的 项 目 已 经 使 用 了 Spark， 并 且 秒 级 别 的 
实时 处 理 可 以 满足 需求 的 话 ， 建 议 使 用 Spark 
Streaming 

。 BOR Abe X AExactly-once; 数据 量 较 
大 ， 要 求 高 吞吐 低 延 迟 ， 需 要 进行 状态 管理 或 
窗口 统计 ， 这 时 建议 使 用 Flink。 





第 2 童 ”Flink 快 速 入 门 


第 1 半 针 对 Flink 的 基本 原理 、 染 构 和 组 件 进 行 
了 分 析 ， 本 章 开 始 快速 实现 一 个 Flink 的 入 门 案例 ， 
这 样 可 以 加 深 对 之 前 内 容 的 理解 。 


2.1 Flink 开 发 环境 分 析 


2.1.1 开发 工具 推荐 





在 实战 之 前 ， 需 要 先 说 明 一 下 开发 工具 的 问 
题 。 官 方 建议 使 用 IntelliJj IDEA， 因 为 它 默 认 集 成 
了 Scala 和 Maven 环 境 ， 使 用 更 加 方便 ， 当 然 使 用 
Eclipse 也 是 可 以 的 。 


开发 Flink 程 序 时 ， 可 以 使 用 Java 或 者 Scala 语 
言 ， 个 人 建议 使 用 Scala， 因 为 使 用 Scala 实 现 函 数 


式 编程 会 比较 简洁 。 当 然 使 用 Java 也 可 以 ， 只 不 过 
实现 起 来 代码 罗 辑 比较 笨重 村 了 。 


在 开发 Flink 程 序 的 时 候 ， 建 议 使 用 Maven 管 理 
依赖 。 针 对 Maven 仓 库 ， 建 议 使 用 国内 镜像 仓库 地 
址 ， 因 为 国外 仓库 下 载 较 慢 ， 可 以 使 用 国内 阿里 云 
的 Maven 仓 库 。 


TER: 如 采 友 现 依赖 国内 源 无 法 下 载 的 
时 候 ， 记 得 切换 回国 外 源 。 利 用 国内 阿里 云 
Maven 仓 库 镜像 进行 相关 配置 时 ， 需 要 修改 
$Maven_HOME/conf/settings.xml 文 件 。 








<mirror> 


<id>aliMaven</id> 
<name>aliyun Maven</name> 
<url>http://Maven.aliyun.com/nexus/content/groups 
/public/</url> 
<mirrorOf>central</mirrorOf> 
</mirror> 


2.1.2 Flink 程 序 依赖 配置 


在 使 用 Maven 管 理 Flink 程 序 相关 依赖 的 时 候 ， 
需要 提前 将 它们 配置 好 。 对 应 的 Maven 项 目 创建 完 
成 以 后 ， 也 需要 在 这 个 项 目的 pom.xml 文 件 中 进行 
相关 配置 。 





使 用 Java 语 言 开 发 Flink 程 序 的 时 候 希 要 添加 以 
下 配置 。 


注意 : 在 这 里 使 用 的 Flink 版 本 是 1.6.1。 
如 果 使 用 的 是 其 他 版 本 ， 需 要 到 Maven 仓 库 中 
查找 对 应 版 本 的 Maven 配 置 。 











<dependency> 
<groupId>org.apache.flink</groupId> 
<artifactId>flink-java</artifactId> 
<version>1.6.1</version> 


<scope>provided</scope> 

</dependency> 

<dependency> 
<groupId>org.apache. flink</groupId> 
<artifactId>flink-streaming-java_2.11</artifactId> 
<version>1.6.1</version> 
<scope>provided</scope> 

</dependency> 





使 用 Scala 语 言 开发 Flink 程 序 的 时 候 需 要 添加 
下 面 的 配置 。 


<dependency> 
<groupId>org.apache.flink</groupId> 
<artifactId>flink-scala_2.11</artifactId> 
<version>1.6.1</version> 

<scope>provided</scope> 

</dependency> 

<dependency> 


<groupId>org.apache. flink</groupId> 
<artifactId>flink-streaming-scala_2.11</artifactId> 
<version>1.6.1</version> 

<scope>provided</scope> 

</dependency> 





注意 : 在 IDEA 等 开 及 工具 中 运行 代码 的 
时 候 ， 需 要 把 依赖 配置 中 的 scope 属 性 注释 


掉 。 在 编译 打 JAR 包 的 时 候 ， 需 要 开启 scope 属 
性 ， 这 样 最 终 的 JAR 包 就 不 会 把 这 些 依赖 包 也 
包含 进去 ， 因 为 集群 中 本 吴 是 有 Flink 的 相关 

依赖 的 。 





2.2 ”Flink 程 序 开 友 步 又 
开发 Flink 程 序 有 固定 的 流程 。 
(1) 获得 一 个 执行 环境 。 
(2) 加 载 /创建 初始 化 数据 。 
(3) 指定 操作 数据 的 Transaction 算 于 。 
(4) 指定 计算 好 的 数据 的 存放 位 置 。 


(5) 调用 execute0) 触 发 执行 程序 。 
一 


注意 : Flink 程 序 是 延迟 计算 的 ， 只 有 最 
后 调用 execute(0) 方 法 的 时 候 才 会 真正 触发 执行 
程序 。 





延迟 计算 的 好 处 : 你 可 以 开发 复杂 的 程序 ， 
Flink 会 将 这 个 复杂 的 程序 转 成 一 个 Plan， 并 将 Plan 
作为 一 个 整体 单元 执行 ! 


在 这 里 ， 提 前 创建 一 个 Flink 的 Maven 项 目 ， 起 
名 为 FlinkExample， 效 果 如 图 2.1 所 示 。 





图 2.1 项 目 目录 


后 面 的 Java 代 码 全 部 存放 在 src/main/Java 目 录 
下 ，Scala 代 码 全 部 存放 在 src/main/Scala 目 录 下 ， 尝 
计算 相关 的 代码 存放 在 对 应 的 streaming 目 录 下 ， 批 
处 理 相 关 的 代码 则 存放 在 对 应 的 batch 目 录 下 。 











2.3 Flink 流 处 理 (Streaming) 案例 开发 


需求 分 析 : 通过 Socket 手 工 实时 产生 一 些 单 
词 ， 使 用 Flink 实 时 接收 数据 ， 对 指定 时 间 窗 口内 
(如 2s) 的 数据 进行 聚合 统计 ， 并 且 把 时 间 窗 口内 
计算 的 结果 打印 出 来 。 





2.3.1 Java 代码 开发 


首先 添加 Java 代 人 码 对 应 的 Maven 依 赖 ， 参 考 
2.1.2 节 的 内 容 。 注 意 ， 在 下 面 的 代码 中 ， 我 们 会 创 
娃 一 个 WordWithCount 类 ， 这 个 类 主要 是 为 了 方便 


统计 每 个 单词 出 现 的 总 次 数 。 


需求 : 实现 每 隔 1s 对 最 近 2s 内 的 数据 进行 汇总 


分 析 : 通过 Socket 模 拟 产生 单词 ， 使 用 Flink 程 
序 对 数据 进行 汇总 计算 。 


代码 实现 如 下 。 





package xuwei.tech.streaming; 


import org.apache.Flink.api.common. functions. FlatMapFun 
ction; 

import org.apache.Flink.api.Java.utils.ParameterTool; 
import org.apache.Flink.contrib.streaming.state.RocksDB 
StateBackend; 

import org.apache.Flink.runtime.state.filesystem.FsStat 
eBackend; 

import org.apache.Flink.runtime.state.memory.MemoryStat 
eBackend; 

import org.apache.Flink.streaming.api.DataStream.DataSt 
ream; 

import org.apache.Flink.streaming.api.DataStream.DataSt 
reamSource; 

import org.apache.Flink.streaming.api.environment.Strea 
mExecutionEnvironment ; 

import org.apache.Flink.streaming.api.windowing.time.Ti 


me ; 
import org.apache.Flink.util.Collector; 


/** 
* 单词 计数 之 滑动 窗口 计算 
米 
* Created by xuwei.tech 
a 


public class SocketWindowWordCountJava { 


public static void main(String[] args) throws Excep 
tion{ 
// 获 取 需 要 的 端口 号 
int port; 
try { 
ParameterTool parameterTool = ParameterTool 
. fromArgs(args) ; 
port = parameterTool.getInt("port") ; 
}catch (Exception e){ 
System.err.println("No port set. use defaul 
t port 9000--Java"); 
port = 9000; 
} 


// 获 取 Flink 的 运行 环境 
StreamExecutionEnvironment env = StreamExecutio 
nEnvironment. getExecutionEnvironment() ; 


String hostname = "hadoop1@e" ; 

String delimiter = "\n"; 

// 连 接 Socket 获 取 输 入 的 数据 

DataStreamSource<String> text = env.socketTextS 
tream(hostname, port, delimiter); 


// aac 


/f/al 
//a1 
// c1 
DataStream<WordWithCount> windowCounts = text.f 
latMap(new FlatMapFunction 
<String, WordWithCount>() { 
public void flatMap(String value, Collector 
<WordWithCount> out) throws 
Exception { 
String[] splits = value.split("\\s"); 
for (String word : splits) { 
out.collect(new WordWithCount(word, 
1L)); 
} 
} 
}) .keyBy ("word") 
.timeWindow(Time.seconds(2), Time.secon 
ds(1))// 指 定时 间 窗 口 大 小 为 2s， 指 定时 间 间 隔 为 1s 
.Sum("count");// 在 这 里 使 用 sum 或 者 reduce 
都 可 以 
/*.reduce(new ReduceFunction<WordWithCo 
unt>() { 
public WordWithCoun 
t reduce(WordwWithCount a, 
WordWithCount b) throws Exception { 


return new Word 
WithCount(a.word,a.count+b.count) ; 
} 

})*/ 
// 把 数据 打印 到 控制 台 并 且 设 置 并 行 度 
windowCounts.print().setParallelism(1) ; 
// 这 一 行 代 码 一 定 要 实现 ， 人 否则 程序 不 执行 
env.execute("Socket window count"); 








public static class WordWithCount{ 

public String word; 

public long count; 

public WordWithCount(){} 

public WordWithCount(String word,long count) { 
this.word = word; 
this.count = count; 

} 

@Override 

public String toString() { 
return "WordWithCount{" + 


"word='" + word + '\ Li + 
", count=" + count + 
] 





2.3.2 Scla REFE 


E CANN ee eins HiMaventk ti, Be 
2.1.2 节 的 内 容 。 在 这 过 case class 的 方式 在 Scala 
中 创建 一 个 类 。 





需求 : 实现 每 隔 1s 对 最 近 2s 内 的 数据 进行 汇总 
WH. 


分 析 : 通过 Socket 模 拟 产生 单词 ， 使 用 Flink 程 
序 对 数据 进行 汇总 计算 。 


代码 实现 如 下 。 





package xuwei.tech. streaming 


import org.apache.Flink.api.Java.utils.ParameterTool 
import org.apache.Flink.streaming.api.Scala.StreamExecu 
tionEnvironment 

import org.apache.Flink.streaming.api.windowing.time.Ti 
me 


* 单词 计数 之 滑动 窗口 计算 


* Created by xuwei.tech 
"7 
object SocketWindowWordCountScala { 


def main(args: Array[String]): Unit = { 


// 获 取 Socket 端 口号 
val port: Int = try { 
ParameterTool.fromArgs(args).getInt("port") 
}catch { 
case e: Exception => { 
System.err.println("No port set. use default po 
rt 9000--Scala") 


} 
9000 





// 获 取 运 行 环境 
val env: StreamExecutionEnvironment = StreamExecuti 
onEnvironment. getExecutionEnvironment 


// 连 接 Socket 获 取 输 入 数据 
val text = env.socketTextStream("hadoop1@0", port, ' \ 
n') 


// 解 析 数 据 〈( 把 数据 打 平 )， 分 组 ， 窗 口 计算 ， FF ASR Gok sum 





// 注 意 : 必须 要 添加 这 一 行 隐 式 转行 ， 人 否则 下 面 的 FlatMap 方 法 
执行 会 报错 


import org.apache.Flink.api.Scala._ 


val windowCounts = text.flatMap(line => line.split( 

"\\s"))// 打 平 ， 把 每 一 行 单词 都 切 开 

.map(w => WordwithCount(w,1))// 把 单词 转 成 word , 1 
这 种 形式 

.keyBy("word")// 分 组 

.timeWindow(Time.seconds(2),Time.seconds(1))// 指 
定 窗 口 大 小 ， 指 定 间 隅 时 间 

.sum("count");// sum 或 者 reduce 都 可 以 

//.reduce((a,b)=>WordWithCount(a.word,a.count+b.c 
ount ) ) 


// 打 印 到 控制 台 


windowCounts.print().setParallelism(1) ; 


// 执 行 任务 


env.execute("Socket window count") ; 


} 


case class WordWithCount(word: String,count: Long) 


2.3.3 ”执行 程序 


在 前 面 的 案例 代码 中 指定 hostname 为 
hadoop100，Pport 默 认为 9000， 表 示 流 处 理 程序 默认 
监听 这 个 主机 的 9000 端 口 。 因 此 在 执行 程序 之 前 ， 
需要 先 在 hadoop100 这 个 节点 上 面 监听 这 个 问 口 ， 
通过 执行 下 面 命 令 实现 。 





[rootQ@hadoop166 soft]# nc -1 9000 








然后 在 IDEA 中 运行 编写 完成 的 程序 代码 ， 结 
RU F o 
WordWithCount{word='a', count=1} 


WordWithCount{word='b', count=1} 
WordWithCount{word='a', count=2} 


WordWithCount{word='b', count=1} 
WordWithCount{word='a', count=1} 





2.4 Flink 批 处 理 (Batch) 案例 开发 


前 面 使 用 Flink 实 现 了 一 个 典型 的 流 式 计算 案 
例 ， 下 面 来 看 一 下 Flink 的 另 一 个 应 用 场景 一 一 
Batch 离 线 批 处 理 。 


2.4.1 Java 代码 开发 


ae 





求 : 统计 一 个 文件 中 的 单词 出 现 的 总 次 数 ， 
并 且 把 结果 存储 到 文件 中 。 


Java 代 码 实 现 如 下 。 





package xuwei.tech. batch; 


import org.apache. 


ction; 
import 
import 
import 
import 
import 


* 


org. 
org. 
org. 
org. 
org. 


apache. 
apache. 
apache. 
apache. 
apache. 


Flink. 


Flink. 
Flink. 
Flink. 
Flink. 
Flink. 


* 单 词 计 数 之 离线 计算 


api.common.functions.FlatMapFun 


api.Java.DataSet; 
api.Java.ExecutionEnvironment ; 
api.Java.operators.DataSource; 
api.Java.tuple.Tuple2; 
util.Collector; 


* 


* Created by xuwei.tech 
ty 
public class BatchWordCountJava { 


public static void main(String[] args) throws Excep 
tion{ 
String inputPath = "D:\\data\\file"; 
String outPath = "D:\\data\\result"; 


// 获 取 运 行 环境 

ExecutionEnvironment env = ExecutionEnvironment 
.getExecutionEnvironment() ; 

// 获 取 文 件 中 的 内 容 

DataSource<String> text = env.readTextFile(inpu 
tPath) ; 


DataSet<Tuple2<String, Integer>> counts = text. 
flatMap(new Tokenizer()).groupBy(@).sum(1) ; 

counts.writeAsCsv(outPath,"\n"," ").setParallel 
ism(1); 

env.execute("batch word count"); 


} 


public static class Tokenizer implements FlatMapFun 
ction<String, Tuple2<String, 
Integer>>{ 
public void flatMap(String value, Collector<Tup 
le2<String, Integer>> out) 
throws Exception { 
String[ ] tokens = value.toLowerCase().split 
("\\W+") 5 
for (String token: tokens) { 
if (token. length()>0){ 
out.collect(new Tuple2<String, Inte 


ger>(token,1)); 





2.4.2 Scala REFR 





需求 ， 统 计 一 个 文件 中 的 单词 出 现 的 总 次 数 ， 
并 且 把 结果 存储 到 文件 中 。 


Scala 代 码 实 现 如 下 。 





package xuwei.tech.batch 


import org.apache.Flink.api.Scala.ExecutionEnvironment 


/** 
* 单词 计数 之 离线 计算 
* Created by xuwei.tech 
*/ 
object BatchWordCountScala { 


def main(args: Array[String]): Unit = { 
val inputPath = "D:\\data\\file" 
val outPut = "D:\\data\\result" 


val env = ExecutionEnvironment. getExecutionEnvironm 
ent 


val text = env.readTextFile(inputPath) 


// 引 入 隐 式 转换 


import org.apache.Flink.api.Scala._ 


val counts = text.flatMap(_.toLowerCase.split("\\W+ 
")) 
.filter(_.nonEmpty) 
-map((_,1)) 
. groupBy(@) 
.sum(1) 
counts.writeAsCsv(outPut,"\n"," ").setParallelism(1 


env.execute("batch word count") 





2.4.3 ”执行 程序 


首先 ， 代 码 中 指定 的 inputPath 是 D:NdataNfile 目 
录 ， 我 们 需要 在 这 个 目录 下 和 面 创建 一 些 文件 ， 并 在 
文件 中 输入 一 些 单词 。 








D:\data\file>dir 
2018/03/20 09:01 24 a.txt 
D:\data\file>type a.txt 


hello a hello b 
hello a 





然后 ， 在 IDEA 中 运行 程序 代码 ， 产 生 的 结果 
会 被 存储 到 outPut 指 定 的 D:NdataNresult 文 件 中 。 


D:\data>type result 





第 3 章 Flink 的 安装 和 部 署 


我 们 对 Flink 有 了 一 个 基本 的 认识 ， 并 且 也 掌握 
了 Flink 程 序 的 开发 步 又。 下面 就 来 看 一 下 如 何 安装 
和 部 署 一 个 Flink 集 群 ， 并 在 集群 上 真正 运行 Flink 程 
序 。 





Flink 的 安装 和 部 闭 主 要 分 为 本 地 模式 和 集群 模 
式 ， 其 中 本 地 模式 只 需 直 接 解压 加 可 以 使 用 ， 不 以 
修改 任何 参数 ， 一 般 在 做 一 些 徐 单 测 试 的 时 候 使 
用 。 和 集群 模式 包含 Standalone、Flink on Yarn 等 模 
式 ， 适 合 在 生产 环境 下 面 使 用 ， 且 需要 修改 对 应 的 
配置 参数 。 











3.1 Elink 本 地 模式 


本 地 模式 是 安 闻 Flink 服 务 较 快 速 的 一 种 方式 。 


安装 Flink 需 要 以 下 基础 环境 。 


。Linux 坏 境 ， 在 这 里 建议 使 用 CentOS 6.x 的 版 
本 。 
。JDK 1.8， 需 要 配置 好 JAVA_HOME 环 境 变量 。 


注意 : 因为 Flink 依 赖 Hadoop， 所 以 在 选 
择 Flink 安 装 包 的 时 候 需 要 参考 已 有 的 Hadoop 
版 本 。 我 们 使 用 的 是 Hadoop 2.7.5 版 本 。 因 为 
在 这 里 我 们 使 用 Flink 1.6.1 版 本 ， 所 以 下 载 的 
Flink 对 应 版 本 就 是 flink-1.6.1-bin-hadoop27- 
scala 2.11.tgz。 








BOR Pek HU Flink 22232 E E48 Bll Linux) Las 
的 /data/soft 目 孙 下 ， 如 采 /data/soft 目 孙 不 存在 则 需 
要 提前 创建 。 


一 一、 


注意 : 在 这 里 使 用 的 Linux 机 器 IP 为 
192.168.1.100，hostname 为 hadoop100。 








Flink 本 地 模式 的 具体 安装 步骤 如 下 。 


(1) 在 Linux 的 Shell 命 令 行 中 进入 /data/soft 目 
录 ， 执 行 解 压 命 令 。 


[rootQhadoop166 soft]# tar -zxvf flink-1.6.1-bin-hadoop 
27-scala_2.11.tgz 

flink-1.6.1/ 

flink-1.6.1/bin/ 

flink-1.6.1/bin/pyFlink.sh 

flink-1.6.1/bin/config.sh 
flink-1.6.1/bin/mesos-taskmanager.sh 





(2) 执行 局 动 命 令 。 


[root@hadoop10e@ soft]# cd flink-1.6.1 
[root@hadoop1e0e@ flink-1.6.1]# bin/start-cluster.sh 


Starting cluster. 
Starting standalonesession daemon on host hadoop166 . 
Starting taskexecutor daemon on host hadoop166 . 





局 动 成 功 的 效果 如 图 3.1 所 示 。 


bee ev flink-1.6.1]# bin/start-cluster.sh 
starting clu 

Starting Sea a Sl daemon on host hadoop100 . 
Starting taskexecutor daemon on host hadoop100. 
[root@hadoop100 flink-1.6.1]# jps 

14535 

13930 rf rate hl ade 

14363 TaskManagerRunn 

[root@hadoop100 Flink- 1. 6.1]# 


图 3.1 ”Flink 启 动 成 功 界面 


(3) 启动 成 功 以 后 ， 可 以 通过 浏览 器 访问 
Flink 的 Web 界 面 。 


此 时 如 果 通 过 主机 名 进行 访问 ， 需 要 保证 
Windows 的 hosts 文 件 对 hadoop100 这 台 机 器 的 主机 
名 和 IP 的 映射 关系 进行 了 配置 。 





正 第 人 访问 的 足 面 效 玉 如 图 3.2 所 示 。 





TER: 如 果 想 关闭 Flink， 则 需要 执行 


bin/stop-cluster.sh. 


@ Apache Flink Web Das! x 
€ C 全 |O Fz | hadoop100:8081/#/overview 


@ Apache Flink Dashboard Overview 





Completed Jobs 





图 3.2 Flink Web UI 界面 
3.2 ”Flink 和 集群 模式 


Flink 提 供 了 多 种 集群 模式 ， 如 下 所 示 。 


e Standalone. 
e Flink on Yarn. 
e Mesos. 


e Docker. 


1 


Task Managers 


1 


Task Slots 


1 


Available Task Slots 


e Kubernetes. 

e AWS. 

e Goole Compute Engine. 
e MapR. 


目前 在 企业 中 使 用 最 多 的 是 Flink on Yarn 模 
式 。 在 这 里 我 们 主要 分 析 Standalone 和 Flink on Yarn 
两 种 模式 。 





3.2.1 ”Standalone 模 式 


Standalone 是 Flink 的 独立 部 署 模式 ， 它 不 依赖 
其 他 平台 。 如 果 想 搭建 一 套 独 立 的 Flink 集 群 ， 可 以 
考虑 使 用 这 种 模式 。 





在 使 用 这 种 模式 搭建 Flink 集 群 之 前 ， 需 要 先 规 
划 和 集群 机 器 信息 。 在 这 里 为 了 搭建 一 个 标准 的 Flink 
集群 ， 需 要 准备 3 台 Linux 机 器 ， 如 图 3.3 所 示 。 


hadoop101(Slavel ) 





hadoop100(Master) 


hadoop102 (Slave2) 


图 3.3 ”Flink 集 群 节点 信息 
这 3 台 Linux 机 器 的 基本 环境 信息 如 下 。 


e Mtaster 节 点 ， 主 机 名 是 hadoop100，JDK 1.8. 
e Slavel 贡 点 ， 主 机 名 是 hadoop101，JDK 1.8. 
。Slave2 贡 点 ， 主 机 名 是 hadoop102，JDK 1.8. 





注意 : 这 3 人 台 Linux 机 井 ( 节 点 ) 都 配置 了 
JAVA_HOME， 并 且 也 实现 了 节点 之 间 的 ssh 
免 密码 登录 ， 至 少 保证 Master 节 点 可 以 免 密 和 三 


登录 a 到 其 他 两 个 Slave 闻 点 ， 防 火 墙 也 都 关闭 
Ta 





在 Flink 集 群 中 ，Master 节 点 上 会 运行 
JobManager 进 程 ，Slave 节 点 上 会 运行 TaskManager 
进程 。 





下 面 在 这 3 个 机 右上 开始 正式 安装 和 部 普 Flink 
Standalone 模 式 集群 。 





(1) 在 这 3 人 台 机 器 上 创建 /data/soft 目 录 。 
(2) 在 hadoop100 这 人 台 机 器 上 操作 。 


。 将 Flink 安 北 包 上 传 到 /data/soft 目 录 下 。 

。 解压 Flink 安 装 包 tar -zxvf flink-1.6.1-bin- 
hadoop27-scala_2.11.tgz. 

。 修 改 Flink 的 配置 文件 flink-1.6.1/conf/flink- 
conf.yaml 中 的 jobmanager.rpc.address 参 数 ， 把 值 


修改 为 hadoop100。 


jobmanager.rpc.address: hadoop166 


。 修改 Flink 的 配置 文件 fink-1.6.1/conf/slaves， 增 
加 以 下 两 行内 容 。 


hadoop1@1 
hadoop1e2 


(3) 将 hadoop100 这 人 台 机 器 上 修改 后 的 flink- 
1.6.1 目 录 复 制 到 其 他 两 个 Slave 节 点 。 





[root@hadoop1ee@ soft]# scp -rq /data/soft/flink-1.6.1 h 
adoop101: /data/soft 


[root@hadoop1ee soft]# scp -rq /data/soft/flink-1.6.1 h 
adoop102:/data/soft 





(4) 在 hadoop100 这 全 机 器 上 局 动 Flink 集 群 服 


ue 





[root@hadoop168 soft]# cd flink-1.6.1 
[rootQ@hadoop166 flink-1.6.1]# bin/start-cluster.sh 
Starting cluster. 

Starting standalonesession daemon on host hadoop166. 
Starting taskexecutor daemon on host hadoop1é@1. 


Starting taskexecutor daemon on host hadoop1@2. 


查看 hadoop100、hadoop101 和 hadoop102 这 3 个 
TAERE Eo 


[root@hadoop10e flink-1.6.1]# jps 
18387 StandaloneSessionClusterEntrypoint 
[root@hadoopi01 soft]# jps 


1843 TaskManagerRunner 
[root@hadoop1i02 soft]# jps 
1944 TaskManagerRunner 





(5) 查看 Flink Web UI 界面 ， 访 问 
http://hadoop100:8081， 如 图 3.4 所 示 。 


@ Apache Flink Web Da st x 
CG Q |© 不 安全 | hadoop100:8081/#/ove A 


& 
ĝa Overvie W 
2 
nagers 
2 
k Slots 
2 
k Slots 





Completed Jobs 





图 3.4 Flink Standalone 和 集群 启动 成 功 的 效果 





注意 : 在 Flink 1.6 版 本 中 ，Master 广 点 的 
进程 名 称 变 成 了 StandaloneSessionClusterEnt- 
rypoint，Slave 节 点 的 进程 名 称 变 成 了 
TaskManagerRunner。 在 这 里 为 了 方便 使 用 ， 





还 沿用 之 前 版 本 的 称呼 ， 把 Master 节 点 局 动 的 
进程 称 为 JobManager，Slave 节 点 的 进程 称 为 
TaskManager。 


LE 


OR SR Masteri 点 的 JobManager 进 程 售 
止 ， 或 者 由 于 机 器 重启 导致 进程 停止 ， 可 以 通过 下 
面 的 命令 进行 局 动 。 


[root@hadoop10e@ flink-1.6.1]# bin/jobmanager.sh start 
Starting standalonesession daemon on host hadoop166. 


同 理 ， 如 果 想 要 手工 停止 JobManager 进 程 ， 则 
可 以 通过 如 下 命令 实现 。 








[root@hadoop10e flink-1.6.1]# bin/jobmanager.sh stop 


Stopping standalonesession daemon (pid: 19762) on host 
hadoop1@e. 





如 果 集 群 中 Slave 节 点 的 TaskManager 进 程 停 
止 ， 或 者 想 要 回 正 在 运行 的 集群 中 增加 新 的 Slave 下 
则 可 以 使 用 下 面 的 命令 进行 局 动 。 


[root@hadoop161 flink-1.6.1]# bin/taskmanager.sh start 
Starting taskexecutor daemon on host hadoop1@1. 














` 
Ā 
A 
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Ne 





同 理 ， 如 果 想 要 手工 停止 TaskManager 进 程 ， 
则 可 以 通过 如 下 命令 实现 。 


[root@hadoop101 flink-1.6.1]# bin/taskmanager.sh stop 


Stopping taskexecutor daemon (pid: 2325) on host hadoop 
101. 


下 面 针 对 flnk-conf.yaml 文 件 中 的 几 个 重要 参数 
进行 分 析 。 


e jobmanager.heap.mb: JobManager 节 点 可 用 的 内 
人 存 大 小 。 

e taskmanager.heap.mb: TaskManager 节 点 可 用 的 
内 存 大 小 。 

e taskmanager.numberOfTaskSlots: f$ G@#Las 4] H 
的 CPU 数量 。 

e parallelism.default: 默认 情况 下 Flink 任 务 的 并 行 
E. 

e taskmanager.tmp.dirs: TaskManager 的 临时 数据 
存储 目录 。 


上 面 参 数 中 所 说 的 Slot 和 parallelism 的 区 别 如 
Te 





。 Slot 是 静态 的 概念 ， 是 指 TaskManager 具 有 的 并 
发 执行 能 力 。 

e parallelism 是 动态 的 概念 ， 是 指 程序 运行 时 实际 
使 用 的 并 发 能 


。 设置 合适 的 parallelism 能 提高 运算 效率 。 











3.2.2 Flink on Yarn 模 式 


Flink on Yarn IN HY JE FEJEMRE Y ARN R A E 
Flink 任 务 ， 目 前 在 企业 中 使 用 较 多 。 这 种 模式 的 好 
处 是 可 以 充分 利用 集群 资源 ， 提 高 集群 机 器 的 利用 
率 ， 并 有 昌 只 需要 1 套 Hadoop 和 集群 ， 束 可 以 执行 
MapReduce 和 Spark 任 务 ， 还 可 以 执行 Flink 任 务 等 ， 
操作 非常 方便 ， 不 需要 维护 多 僚 集 群 ， 运 维 方面 也 
很 轻松 。Flink on Yarn 模 式 需 要 依赖 Hadoop 集 群 ， 
并 且 Hadoop 的 版 本 需要 是 2.2 及 以 上 。 














Flink on Yarn AEE FS YEN (BY LA ap A 
种 ， 如 图 3.5 所 示 。 


第 1 种 模式 ， 是 在 YARN 中 提前 初始 化 一 个 Flink 
集群 ( 称 为 Flink yarn-session)， 开 辟 指 定 的 资 

源 ， 以 后 的 Flink 任 务 都 提交 到 这 里 。 这 个 Flink 
集群 会 钊 驻 在 YARN 集 群 中 ， 除 非 手工 仔 止 。 这 
种 方式 创建 的 Flink 集 群 会 独占 资源 ， 不 管 有 没 

有 Flink 任 务 在 执行 ，YARN 上 面 的 其 他 任务 都 

无 法 使 用 这 些 资源 。 

第 2 种 模式 ， 每 次 提交 Flink 任 务 都 会 创建 一 个 新 
的 Flink 集 群 ， 每 个 Flink 任 务 之 间 相 互 独立 、 互 
` 影 响 ， 管 理 方便 。 任 务 执行 完成 之 后 创建 的 

Flink 集 群 也 会 消失 ， 不 会 额外 占用 资源 ， 按 需 

使 用 ， 这 使 资源 利用 率 达 到 最 大 ， 在 工作 中 推 

荐 使 用 这 种 模式 。 





Flink 任 务 Flink 任 务 Flink 任 务 


Flink 
yarn-session 


第 一 种 

在 YARN 中 初始 化 一 个 Flink 集 群 ， 开 辟 
制定 的 资源 ， 以 后 的 Flink 任 务 都 提交 到 
这 个 Flink 集 群 中 ， 这 个 Flink 集 群 会 常 驻 
在 YARN 集 群 中 ，Flink 任 务 除非 手工 停止 








Flink 任 务 Flink 任 务 Flink 任 务 


Flink Job Flink Job 


Flink Flink Flink 
yarn-session yarn-session yarn-session 


第 二 种 

每 次 提交 任务 都 会 创建 一 个 新 的 
Flink 集 群 ， 任 务 中 间 互 相 独 立 ， 
互 不 影响 ， 方 便 管 理 ， 任 务 执行 
完成 之 后 创建 的 集群 也 会 消失 


图 3.5 Flink on yam 的 两 种 模式 


下 面 分 别 介绍 这 两 种 模式 的 使 用 步骤 。 


第 1 种 模式 





(1) 创建 一 个 


为 Flink yarn-session)。 


[root@hadoopiee flink-1.6.1]# bin/yarn-session.sh -n 2 





-jm 1024 -tm 1024 -d 


- 直 运 行 的 Flink 集 群 (也 可 以 称 





注意 : 参数 最 后 面 的 -4 参数 是 可 选项 ， 表 
人 
O 








执行 以 后 可 以 到 hadoop100 的 8088 任 务 界面 确 
认 是 否 有 Flink 任 务 成 功 运行 。 
(2) 附 看 到 一 个 已 存在 的 Flink 集 群 中 。 


[root@hadoop10e@ flink-1.6.1]# bin/yarn-session.sh -id a 
pplicationId 





注意 : 参数 最 后 面 的 applicationId 是 一 个 
变量 ， 需 要 获取 第 1 步 创 建 的 Flink 集 群 对 应 的 
applicationId 信 息 。 








(3) 执行 Flink 任 务 。 


[root@hadoop10e@ flink-1.6.1]# bin/flink run ./examples/ 
batch/WordCount. jar 


注意 : WordCount.jar 程 序 默 认 的 输入 是 
内 置 数据 ， 默 认 的 输出 是 stdout。 当 然 也 可 以 
通过 -input 和 -output 来 手动 指定 输入 数据 目录 
和 输出 数据 目录 。 





-input hdfs://hadoop100:9000/LICENSE 





-output hdfs://hadoop100:9000/wordcount-result.txt 


2. 第 2 种 模式 





提交 Flink 任 务 的 同时 创建 Flink 集 和 群 。 


[root@hadoopiee flink-1.6.1]# bin/flink run -m yarn-clu 
ster -yn 2 -yjm 1024 -ytm 1024 





./examples/batch/WordCount. jar 





注意 : Client ($e X Flink{ES ALAS) YA 
须要 设置 YARN_CONF_DIR、 
HADOOP_CONF_DIR 或 者 HADOOP_HOME 
环境 变量 ，Flink 会 通过 这 个 环境 变量 来 读 取 
YARN 和 HDFS 的 配置 信息 ， 否 则 启动 会 失 
败 。 





在 使 用 Flink on Yam 模 式 的 时 候 可 能 会 遇 到 下 
面 的 报错 信息 ， 特 别 是 在 本 地 Linux 虚 拟 机 上 做 实 
验 的 时 候 ， 如 图 3.6 所 示 。 

Diagnostics: Container [pid=6386,containerID=container_ 


1521277661809 9006 61 900001] is running 
beyond virtual memory limits. Current usage: 250.5 MB o 


f 1 GB physical memory used; 2.2 GB of 2.1 GB virtual m 
emory used. Killing container 








277661809_0006 failed 1 times due to AM Container for appattempt_1521277661809_0006_000001 exited| 
For more detailed output, check application tracking page:http://hadoop100: 8088/cluster/app/app1i 
n links to logs of each attempt. 
Diagnostics: Container [pid=6386,containerID=container_1521277661809_0006_01_000001] is running b 
sage: 250.5 MB of 1 GB p ysical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing contai 
Dump of the process-tree for container_1521277661809_0006_01_000001 : 

|- PID PPID PGRPID SESSID CMD_NAME USER_MODE_TIME(MILLTS) SYSTEM_TIME(MILLTS) VMEM_USAGE ( 
NE 

|- 6386 6384 6386 6386 (bash) 0 0 108625920 331 /bin/bash -c /usr/local/jdk/bin/java_-Xxmx 
agli ep te ancl eng veep Sisal pa ter a - 
ties org.apache.flink.yarn.YarnApplicationMasterRunner 1> Ae ba ari eae ae eat dag a TE 
1277661809_0006_01_000001/jobmanager.out 2> /usr/local/hadoop/logs/user logs/app lication_152127766 
_01_000001/jobmanager .err 

|- 6401 6386 6386 6386 (java) 388 72 2287009792 63800 /usr/local/jdk/bin/java -xmx424m -D 
gd ge Roe ger ce llama 000601 000001/Jobmanager -Tog -Dlog4j.c 
- apache. flink.yarn. YarnApplicationmMasterRunner 


Container killed on request. Exit code is 143 
Container exited with a non-zero exit code 143 
Failing this attempt. Failing the application. 
2018-03-17 21:50:21,697 INFO org.apache.flink.yarn.Applicationclient - sen 











图 3.6 Flink on Yarn 常 见报 错 信 息 








出 现 这 个 错误 的 原因 是 使 用 容量 超过 了 虚拟 内 
存 ， 可 以 选择 茶 用 此 检查 机 制 。 


解决 方法 是 修改 文件 
$HADOOP_HOME/etc/hadoop/yarn-site.xml， 在 其 
中 添加 如 下 配置 。 


<property> 
<name>yarn.nodemanager.vmem-check-enabled</name> 


<value>false</value> 
</property> 





Flink on Yam 的 内 部 实现 如 网 3.7 所 示 。 






YARN 资 源 
管理 器 
2: 申请 资源 和 
请 求 AppMaster 容 器 
3: 分 配 AppMaster 容 器 
YARN 容 器 


e 
~ 


Fa ink IARI ELE HERE 


图 3.7 Flink on Yarn 的 内 部 实现 





YARN 客 户 端 需要 访问 Hadoop 配 置 ， 从 而 连接 
YARN 资 源 管理 器 和 HDFS。 使 用 下 面 的 策略 来 决 
定 Hadoop 配 置 。 


测试 是 否 设置 了 YARN_CONEF_DIR、 
HADOOP_CONF_DIR 或 HADOOP_CONF_PATH 坏 
境 变量 〈 按 该 顺序 测试 ) 。 如 果 设 置 了 任意 一 个 ， 
Hla AOR EI AC E. 


WR EA MRA CHEE WARY ARNE 
情况 下 ， 这 不 会 及 生 ) ， 客 户 端 束 会 使 用 


HADOOP_HOME 环 境 变量 。 如 果 已 经 设置 了 该 变 
=, BP vas Ay i 
$HADOOP_HOME/etc/Hadoop (Hadoop 2) 和 
$HADOOP_HOME/conf(Hadoop 1). 





当 启 动 一 个 新 的 Flink YARN Client 会 话 时 ， 客 
户 端 首 先 会 检查 所 请 求 的 资源 《容器 和 内 存 ) 是 否 
可 用 。 之 后 ， 它 会 上 传 Flink 配 置 和 JAR 文 件 到 
HDFS. 


sig HY Bx eR TAY ARN 4% 48 J 
ApplicationMaster. JobManager#il 
ApplicationMaster(AM)iz {7 fE lh] -*- 4 a8 fF, ~H. 
它们 成 功 地 启动 了 ，AM 束 能 够 知道 JobManager 的 
地 址 ， 它 会 为 TaskManager 生 成 一 个 新 的 Flink 配 置 
文件 〈 这 样 它 才能 连 上 JobManager) ， 该 文件 也 同 
样 会 被 上 传 到 HDFS。 男 外 ，AM 容 絮 还 提供 了 Flink 
的 web 界面 服务 。Flink 用 来 提供 服务 的 问 口 是 由 用 





户 和 应 用 程序 ID 作为 偏 移 配 置 的 ， 这 使 得 用 户 能 够 
并 行 执 行 多 个 YARN 会 话 。 


之 后 ，AM 开 始 为 Flink 的 TaskManager 分 配 容 
器 ， 从 HDFS 下 载 JAR 文 件 和 修改 过 的 配置 文件 。 
一 旦 这 些 步 又 完成 了 ，Flink 残 安装 完成 并 准备 接受 
任务 了 。 





3.2.3 ”yarn-session.sh 命 令 分 析 


我 们 可 以 通过 yarn-session.sh 来 创建 Flink 集 群 ， 
其 中 yarn-session.sh 后 面 文 持 多 个 参数 。 下 面 针 对 一 
些 常 见 的 参数 进行 分 析 。 
1， 必 选 参数 


-n,--container <arg> 表示 分 配 容 器 的 数量 《也 
就 是 TaskManager 的 数量 ) 。 


e -D <arg> 动态 属性 。 

e -d,--detached 在 后 人 台独 立 运行 。 

e -jm,--jobManagerMemory <arg>: 设置 
JobManager 的 内 存 ， 单 位 是 MB。 

-nm,--name: 在 YARN 上 为 一 个 目 定 义 的 应 用 设 
置 一 个 名 字 。 

-q,--query: 显示 YARN 中 可 用 的 资源 (内 存 、 
cpu 核 数 ) 。 

-qu,--queue <arg>: 指定 YARN 队 列 。 

-s,--slots <arg>: 每 个 TaskManager 使 用 的 Slot 数 
量 。 

-tm,--taskManagerMemory <arg>: 每 个 
TaskManager 的 内 存 ， 单 位 是 MB。 
-z,--Z00keeperNamespace <arg>: 针对 HA 模式 在 
ZooKeeper 上 创建 NameSpace。 

-id,--applicationId <yamApplId>: 指定 YARN 集 群 
上 的 任务 ID， 附 着 到 一 个 后 台独 立 运 行 的 yam 


session 中 。 








3.2.4 Flink run 命 令 分 析 


Flink run 命 令 既 可 以 向 Flink 中 提交 任务 ， 也 可 


以 在 提交 任务 的 同时 创建 一 个 新 的 Flink 集 群 。 在 
3.2.2 节 中 分 析 EFlink on Yarn 的 两 种 部 署 模式 时 都 用 
到 了 Flink run 命 令 ， 它 们 之 间 的 主要 区 别 是 在 Flink 
run 命 令 后 面 是 侣 指定 了 -m 参 数 。 下 面 详细 分 析 
flink run 后 面 可 以 指定 的 参数 信息 。 


bin/flink run [OPTIONS] <jar-file> <arguments> 





其 中 中 表示 是 可 选 参 数 ，<> 表 示 是 必 填 参数 。 
OPTIONS 可 以 使 用 下 面 这 些 参 数 。 


-c,--class <classname>: 如 果 没 有 在 JAR 包 中 指 
定 入 口 类 ， 则 需要 在 此 通过 这 个 参数 动态 指定 
JAR 包 的 入 口 类 。 GER: 这 个 参数 一 定 要 放 到 
<jar-file> 参 数 前 面 。) 

-m,--jobmanager <host:port>: 指定 需要 连接 的 
JobManager 主 节点 ) 地 址 ， 可 以 指定 一 个 不 


同 于 配置 文件 中 的 JobManager。 
e -p,--parallelism <parallelism>: 动态 指定 任务 的 
并 行 度 ， 可 以 敌 盖 配置 文件 中 的 默认 值 。 








具体 使 用 场景 如 下 。 


e [root@hadoop100 flink-1.6.1]# bin/flink run 
./examples/batch/WordCount.jar -input 
hdfs://hadoop100:9000/hello.txt -output 
hdfs://hadoop100:9000/result1 。 


默认 三 找 当 前 YARN 集 群 中 己 有 的 yarn-session 
的 JobManager〈 默 认 到 这 个 路 径 下 面 得 看 
/tmp/.yarn-properties-root) ， 然 后 提交 任务 。 


e [root@hadoop100 flink-1.6.1]# bin/flink run -m 
hadoop100:1234 ./examples/batch/WordCount.jar - 
input hdfs://hadoop100:9000/hello.txt -output 
hdfs://hadoop100:9000/result...... 


显 式 连接 指定 host 和 port 的 JobManager， 然 后 提 


交 任 务 。 


e [root@hadoop100 flink-1.6.1]# bin/flink run -m 
yarn-cluster -yn 2 ./examples/batch/WordCount.jar 
-input hdfs://hadoop100:9000/hello.txt -output 
hdfs://hadoop100:9000/result3 . 


在 YARN 中 启动 一 个 新 的 Flink 和 集群， 然后 提交 


注意 : yarn-sessio.sh 中 的 参数 可 以 用 在 
bin/flink 上 ， 这 个 时 候 需 要 在 yarn-session.sh 的 
参数 前 面 加 一 个 y 或 者 yarn 的 前 级 。 示 例如 
Ta 





[root@hadoop100 flink-1.6.1]# bin/flink run -m yarn-clu 
ster -yn 2 ./examples/batch/WordCount.jar -input hdfs:/ 


/hadoop100:9000/hello.txt -output hdfs://hadoop100:9000 
/result4 





3.3 Elink 代 人 码 生 成 JAR 包 


在 2.3 节 和 2.4 市 中 我 们 开发 了 Flink 的 Streaming 
流 处 理 程序 和 Batch 批 处 理 程序 ， 当 时 只 是 在 IDEA 
中 执行 了 程序 ， 现 在 我 们 想 要 把 这 个 程序 提交 到 集 
群 中 真正 执行 。 在 这 里 以 2.3 节 中 的 Streaming 程 序 
为 例 ， 在 具体 执行 之 前 ， 需 要 先 把 代码 打 成 JAR 
E, HARU T o 





(1) 在 2.3 节 中 使 用 的 Maven 项 目的 pom 文 件 





中 添加 如 下 配置 。 





<build> 
<plugins> 
<!-- 编译 插件 --> 
<plugin> 
<groupId>org.apache.maven.plugins</grou 
pId> 
<artifactIid>maven-compiler-plugin</arti 
factId> 


<version>3.6.0</version> 

<configuration> 
<source>1.8</source> 
<target>1.8</target> 
<encoding>UTF-8</encoding> 


tId> 


atVersion> 


</configuration> 

</plugin> 

<!-- Scala 编 译 插件 --> 

<plugin> 
<groupId>net.alchim31.maven</groupId> 
<artifactId>scala-maven-plugin</artifac 


<version>3.1.6</version> 
<configuration> 
<scalaCompatVersion>2.11</scalaComp 


<scalaVersion>2.11.12</scalaVersion 


<encoding>UTF-8</encoding> 
</configuration> 
<executions> 
<execution> 
<id>compile-scala</id> 
<phase>compile</phase> 
<goals> 
<goal>add-source</goal> 
<goal>compile</goal> 
</goals> 
</execution> 
<execution> 
<id>test-compile-scala</id> 
<phase>test-compile</phase> 
<goals> 
<goal>add-source</goal> 
<goal>testCompile</goal> 
</goals> 
</execution> 
</executions> 
</plugin> 
<!-- 打 JAR 包 插件 (会 包含 所 有 依赖 〉--> 


<plugin> 


<groupId>org.apache.maven.plugins</grou 


pId> 
<artifactIid>maven-assembly-plugin</arti 
factId> 
<version>2.6</version> 
<configuration> 
<descriptorRefs> 


<descriptorRef>jar-with-depende 
ncies</descriptorRef> 
</descriptorRefs> 
<archive> 
<manifest> 
<1-- 可 以 设置 JAR 包 的 入 口 类 ( 
可 选 ) --> 
<mainClass></mainClass> 
</manifest> 
</archive> 
</configuration> 
<executions> 
<execution> 
<id>make-assembly</id> 
<phase>package</phase> 
<goals> 
<goal>single</goal> 
</goals> 
</execution> 
</executions> 
</plugin> 
</plugins> 
</build> 





(2) 执行 编译 打 JAR 包 命令 。 


命令 解释 如 下 。 


e mvn: Maven 中 的 命令 。 

e clean: 清空 target 中 的 内 容 。 

package: 打包 。 

-D: 可 以 动态 指定 参数 。 

e skipTests: 在 打包 的 时 候 不 执行 测试 代码 。 





执行 完 上 面 的 打包 命令 以 后 ， 如 果 看 到 图 3.8 所 
示 的 内 容 ， 则 表示 打 JAR 包 命令 执行 成 功 。 此 时 惑 
可 以 在 图 3.9 所 示 的 目录 中 找到 生成 的 JAR 包 ， 其 中 
FlinkExample-1.0-SNAPSHOT-jar-with- 
dependencies.jar 是 包含 第 三 方 依赖 的 JAR 包 ， 建 议 
HEA 





[INFO] 一 - maven-jar-pl r (default-jar) @ Flin mple 

INFO] Building jar: D: \Ide ee = es S\FLi nkExample\targe ae nkEx ampie “1, O-SNAPSHOT. jar 

INFO 

INFO] 一 maven-assembly-plugin e (make-assembly) @ FlinkExample 

INFO] Building jar: D \IdeaPro =e orl sae ae \target\FlinkExample T 0- SNAPSHOT- jar-with-depende 
cies. jar 

[INFO] ~----------------------------------------------------------------------- 

INFO| BUILD SUCCESS 

INFO] ------------------------------------------------------------------------ 


[INFO] Total time: 37.515s 
INFO] a a Tue Mar 19 21:19:42 CST 2019 
[INFO] Final Memory: 269M/1021M 

NFO 














D: \IdeaProjects\FlinkExample> 





图 3.8” 打 JAR 包 命令 执行 成 功 





:\IdeaProjects\FlinkExample>cd target 


e a E 
驱动 器 A 
车 的 序列 号 是 0004- 3DCC 





D:\IdeaProjects\FlinkExample\target 的 目录 


019/03/19 21:19 <DIR> 
019/03/19 21:19 <DIR> 


019/03/19 21:19 <DIR> archive-tmp 

019/03/19 21:19 <DIR> classes 

019/03/19 21:19 1 classes. -235924572. timestamp 

019/03/19 21:19 84, 712, 880 FlinkExample-1. 0O-SNAPSHOT-jar-with-dependencies. jar! 
019/03/19 21:19 299, 335 FlinkExample-1. 0-SNAPSHOT. jar 

019/03/19 21:19 <DIR> generated-sources 

019/03/19 21:19 <DIR> maven-archiver 

019/03/19 21:19 ele maven-status 

019/03/19 21:19 IR> test-classes 


3 个 文件 85, 012, 216 字 节 
8 个 目录 216, 904, 687, 616 可 用 字 节 





:\IdeaProjects\FlinkExample\target> 








图 3.9 ”JAR 包 所 在 目录 


3.4 Flink HA 的 介绍 和 使 用 


3.4.1 Flink HA 


默认 情况 下 ， 每 个 Flink 集 群 只 有 一 个 
JobManager， 这 将 导致 单 点 故障 〈SPOF) , WR 
这 个 JobManager 挂 了 ， 则 不 能 提交 新 的 任务 ， 并 且 
运行 中 的 程序 也 会 失败 。 使 用 JobManager HA， 集 
群 可 以 从 JobManager 故 障 中 恢复 ， 从 而 避免 单 点 故 


障 。 用 户 可 以 在 Standalone 或 Flink on Yarn 和 集群 模式 
下 配置 Flink 和 集群 HA (高 可 用 性 ) 。 


Standalone 模 式 下 ，JobManager 的 高 可 用 性 的 
基本 思想 是 ， 任 何 时 候 都 有 一 个 Master JobManager 
和 多 个 Standby JobManager。 Standby JobManager 可 
以 在 Master JobManager 挂 挥 的 情况 下 接 省 集群 成 为 
Master JobManager， 这 样 避免 了 单 点 故障， 一 旦 某 
一 个 Standby JobManager 接 管 集 群 ， 程 序 就 可 以 继 
续 运 行 。Standby JobManagers 和 Master JobManager 
实例 之 间 没 有 明确 区 别 ， 每 个 JobManager 都 可 以 成 
为 Master 或 Standby。 











另外 ，Flink on Yarn 的 高 可 用 性 其 实 主 要 利用 
YARN 的 任务 恢复 机 制 实现 。 


3.4.2 Flink Standalone 集 群 的 HA 安装 和 配置 


在 这 里 ， 我 们 使 用 3 个 领导 市 点 (JobManager 


ThA) ， 其 状态 的 变化 情况 如 图 3.10 所 示 。 


时 间 


+ ee ES an 


CRASH z 4 
gel. ee 备用 节点 备用 节点 


b+ 节点 开始 恢复 领导 节点 备用 节点 
B-T 备用 节点 领导 节点 备用 节点 
1 


图 3.10 ”JobManager 节 点 状态 的 变化 情况 


























安装 和 配置 Flink HA 的 具体 步骤 如 下 。 
1. HA 集群 环境 规划 


使 用 5 合 机 器 实现 ， 其 中 3 台 Master 节 点 
(JobManager) IPN £ Slave Ñ 
(TaskManager) 。 实 现 HA 还 需要 依赖 ZooKeeper 
和 HDFS， 因 此 要 有 一 个 ZooKeeper 集 群 和 Hadoop 集 
群 。ZooKeeper 和 JobManager 部 署 在 相同 的 机 器 上 








《由 于 本 地 虚拟 机 个 数 有 限 ， 因 此 需要 共用 机 器 ， 
实际 生产 环境 中 Zookeeper 也 需要 单独 部 署 在 独立 的 
服务 左上) 。Hadoop 和 集群 也 和 JobManager 部 车 在 相 
同 的 机 右上 ， 和 集群 节点 进程 信息 如 图 3.11 所 示 。 











。JobManager 方 点 : hadoop100、hadoop101、 
hadoop102. 

e TaskManager {J Ñ: hadoop103,. hadoop104. 

e ZooKeeper Ñ: hadoop100. hadoop101, 
hadoop102. 

e Hadoop 4: hadoop100. hadoop101, 
hadoop102. 





hadoop100 hadoop101 hadoop102 








hadoop103 hadoop104 














图 3.11 集群 节点 进程 信息 





这 里 对 图 3.11 中 的 信息 进行 简单 的 解释 ， 上 其 体 


如 下 。 


JobManager: Flink 主 节点 的 进程 名 称 。 
TaskManager: Flink 从 节点 的 进程 名 称 。 
NameNode: Hadoop 中 HDFS 的 主 节 点 进程 名 

称 。 

DataNode: Hadoop 中 HDFS 的 从 节点 进程 名 称 。 
SecondaryNameNode: Hadoop 中 HDFS 的 辅助 节 
ResourceManager: Hadoop 中 YARN 的 主 节 点 进 
程 名 称 。 

NodeManager: Hadoop 中 YARN 的 从 节点 进程 名 
称 。 

ZooKeeper: 代表 ZooKeeper 服 务 的 进程 。 





注意 : 要 启用 JobManager 高 可 用 性 ， 必 须 





将 高 可 用 性 模式 设置 为 ZooKeeper， 配 置 
ZooKeeper quorum， 并 配置 一 个 masters 文 件 存 
储 所 有 JobManager 的 hostname 及 其 Web Ulti A 


| 


ow o 





Flink 利 用 ZooKeeper 实 现 运行 中 的 JobManager 
节点 之 间 的 分 布 式 协调 服务 。ZooKeeper 是 独立 于 
Flink 的 服务 ， 它 通过 领导 选举 制 和 轻 量 级 状态 一 致 
性 存储 来 提供 高 度 可 靠 的 分 布 式 协调 。 








2. 开始 配置 


对 hadoop100、hadoop101、hadoop102、 
hadoop103、hadoop104 这 5 台 机 器 进行 基础 环境 配 
置 ， 包 括 设置 主 机 名 、 修 改 /etc/hosts、 设 置 倪 密 人 码 
登录 、 关 闭 防 火场 、 设 置 时 间 同 步 以 及 安 闭 配置 
JDK 1.8 等 内 容 。 





TER: 这 里 使 用 的 机 器 都 是 CentOS 6.5 版 
本 〈64 位 ) 的 操作 系统 。 





(1) 设置 主机 名 。 





这 5 台 机 器 的 主机 名 分 别 是 hadoop100、 
hadoop101、hadoop102、hadoop103 和 hadoop104。 


使 用 hostname 命 令 在 每 台 机 器 上 分 别 进行 设 
置 ， 命 令 如 下 。 


在 hadoop100 机 器 上 执行 hostname hadoop100。 
在 hadoop101 机 器 上 执行 hostname hadoop101. 
在 hadoop102 机 器 上 执行 hostname hadoop102. 


在 hadoop103 机 器 上 执行 hostname hadoop103。 


在 hadoop104 机 器 上 执行 hostname hadoop104. 


注意 : 使 用 hostname 命 令 设置 的 主机 名 只 
是 临时 生效 ， 因 为 在 机 器 重启 后 ， 之 前 设置 的 
hostname 束 无 效 了 ， 上 所 以 还 需要 进行 永久 设 
置 。 





在 hadoop100 机 右上 执行 如 下 命令 。 


vi /etc/sysconfig/network 
HOSTNAME=hadoop100 

在 其 余 4 台 机 右上 执行 相同 的 命令 ， 仅 修改 
HOSTNAME 后 的 机 器 名 称 。 


(2) 修改 /etc/hosts。 


修改 hadoop100、hadoop101、hadoop102、 


hadoop103、hadoop104 这 5 台 机 器 的 /etc/hosts 文 件 。 


vi /etc/hosts 
192.168.1.100 hadoop10e 
192.168.1.101 hadoop101 


192.168.1.102 hadoop102 
192.168.1.103 hadoop103 
192.168.1.104 hadoop104 





(3) 设置 免 密码 登录 。 





在 这 5 台 机 器 中 ，hadoop100 是 主 节 点 ， 因 此 只 
需要 实现 hadoop100 能 够 免 密码 登录 到 目 己 以 及 其 
他 4 个 节点 就 可 以 了 。 


首先 配置 hadoop100 节 点 的 本 机 人 免 密 人 码 登 录 。 


[root@hadoop10@ soft]# ssh-keygen -t rsa 
[root@hadoop100 soft]# cat ~/.ssh/id_rsa.pub >> ~/.ssh/ 
authorized keys 


然后 在 hadoop100 节 点 上 执行 scp 命 令 〈 执 行 的 
时 候 需 要 输入 对 应 节点 的 密码 ) 。 





[rootQhadoop166 soft]# scp .ssh/authorized_keys 
00p101:~/ 
[root@hadoop100 soft]# scp .ssh/authorized_keys 
00p102:~/ 


[ root@hadoop100 soft]# scp .ssh/authorized_keys 
00p103:~/ 
[rootQ@hadoop166 soft]# scp .ssh/authorized_keys 
00p104:~/ 





最 后 在 hadoop101、hadoop102、hadoop103、 
hadoop104 贡 点 上 分 别 执 行 如 下 命令 。 


cat ~/authorized_keys >> ~/.ssh/authorized_keys 


如 果 在 hadoop100 节 点 上 使 用 ssh 命 令 能 够 在 不 
输入 密码 的 情况 下 访问 其 他 4 个 节点 ， 则 说 明 配 置 
成 功 。 


(4) 关闭 防火 墙 。 


在 hadoop100、hadoop101、hadoop102、 


hadoop103、hadoop104 这 5 人 台 机 器 上 执行 如 下 一 行 


A 
命令 。 





service iptables stop 


注意 : 这 样 只 能 保证 临时 关闭 防火 场 ， 
“las He Wa bi Atk BT a AANA 
司 防火 墙 的 命令 在 开机 局 动 项 中 ， 所 以 还 需要 
在 开机 局 动 项 中 关闭 。 执 行 如 下 一 行 命令 。 





chkconfig iptables off 


(5) 设置 时 间 同 步 。 





如 果 集 群 内 节点 时 间 相 兰 太 大 的 话 ， 会 导致 集 
群 服务 寞 第 ， 所 以 需要 保证 集群 内 各 市 点 时 间 一 
BL o 








使 用 如 下 命令 使 各 节点 时 间 一 致 〈《 需 要 保证 集 
群 内 的 所 有 布点 都 能 够 连接 外 网 ) 。 


ntpdate -u ntp.sjtu.edu.cn 


注意 : 默认 是 没有 ntpdate 命 令 的 ， 需 要 使 
用 yum 在 线 安 装 。 





>yum install -y ntpdate 即 可 实现 yum 在 


ue S 
O D 
= 
必 


建议 把 这 个 同步 时 间 的 操作 写 到 Linux 的 
crontab hta P REPAMAR ERAI) o 








vi /etc/crontab 
* * * * * root /usr/sbin/ntpdate -u ntp.sjtu.edu.cn 


(6) 安装 配置 JDK 1.8. 
QO 下载 JDK 1.8 的 安装 包 。 


© 上 传 JDK 1.8 的 安装 包 。 


把 jdk-8u191-linux-x64.tar.gz 上 传 到 hadoop100 
的 /datay/soft 目 录 下 。 如 果 /data/soft 目 录 不 存在 ， 则 


南 要 创建 它 。 


G) 解压 。 


[rootQhadoop166 soft]# tar -zxvf jdk-8u191-linux-x64.ta 
r.gz 


@) 对 JDK 目 录 进 行 重 命名 。 


[rootQhadoop166 soft]# mv jdk1.8.6 191 jdk1.8 


6) 配置 JAVA_HOME。 


[rootQ@hadoop166 soft]# vi /etc/profile 


export JAVA_HOME=/data/soft/jdk1.8 
export PATH=. :$JAVA_HOME/bin: $PATH 





© 验证。 





# 首先 执行 sSource 命 令 
[root@hadoop1ee0 soft]# source /etc/profile 
# 查看 Java 版 本 信息 


[root@hadoop1ee0 soft]# java -version 





# 显示 如 下 内 容 表示 ]JDK 安 装配 置 成 功 

java version "1.8.6 191" 

Java(TM) SE Runtime Environment (build 1.8.0 _191-b12) 
Java HotSpot(TM) 64-Bit Server VM (build 25.191-b12, mi 
xed mode) 





D 把 解压 好 的 JDK 安 装 目录 和 /etc/profile 文 件 
复制 到 其 他 4 个 节点 上 。 


# 在 hadoop166 这 个 机 器 上 执行 scp 命 令 

[root@hadoop100 soft]# scp -rq /data/soft/jdk1.8 hadoop 
101: /data/soft 

[root@hadoop1e00 soft]# scp -rq /data/soft/jdk1.8 hadoop 
102:/data/soft 

[root@hadoop100 soft]# scp -rq /data/soft/jdk1.8 hadoop 
103:/data/soft 

[root@hadoop100 soft]# scp -rq /data/soft/jdk1.8 hadoop 
104: /data/soft 

[root@hadoop100 soft]# scp -rq /etc/profile hadoop1@1: / 
etc 

[rootQhadoop166 soft]# scp -rq /etc/profile hadoop1@2:/ 
etc 

[rootQhadoop166 soft]# scp -rq /etc/profile hadoop1e3:/ 
etc 

[root@hadoop10@ soft]# scp -rq /etc/profile hadoop104: / 
etc 





(8) 在 hadoop101、hadoop102、hadoop103、 
hadoop104 中 执行 Source 命令 并 验证 JDK 安 装 和 配置 


[root@hadoop100 soft]# ssh hadoop161 
[root@hadoopi01 soft]# source /etc/profile 
[root@hadoop101 soft]#java -version 
[root@hadoop100 soft]# ssh hadoop162 
[root@hadoop102 soft]# source /etc/profile 
[ root@hadoop102 soft]# java -version 


[root@hadoop1e0 soft]# ssh hadoop1e3 
[ root@hadoopie3 soft]# source /etc/profile 
[root@hadoop103 soft]# java -version 
[root@hadoop100 soft]# ssh hadoop164 
[ root@hadoop104 soft]# source /etc/profile 
[root@hadoop104 soft]# java -version 





vy 


(7) 7Ehadoop100. hadoop101. hadoop102ix 
3 台 机 器 上 配置 Hadoop 集 和 群 。 


D 下 载 Hadoop 安 装 包 。 


https://archive.apache.org/dist/hadoop/common/hadoop-2. 





7.5/hadoop-2.7.5.tar.gz 


D 上 传 Hadoop 安 装 包 。 


把 hadoop-2.7.5.tar.gz 安 装 包 上 传 到 hadoop100 市 





点 的 /data/soft 目 录 下 面 。 
(3) 解压 。 


[rootQ@hadoop166 soft]# tar -zxvf hadoop-2.7.5.tar.gz 


4) 修改 Hadoop 的 相关 配置 文件 。 








[rootQhadoop166 soft]# cd hadoop-2.7.5/etc/Hadoop 
[root@hadoop100 hadoop]# vi hadoop-env.sh 

export JAVA_HOME=/data/soft/jdk1.8 

export HADOOP LOG DIR=/data/hadoop_repo/logs/Hadoop 


[ root@hadoop1e0 hadoop]|# vi yarn-env.sh 
export JAVA_HOME=/data/soft/jdk1.8 
export YARN LOG DIR=/data/hadoop_repo/logs/yarn 


[ root@hadoop1ee@ hadoop]# vi core-site. xml 
<configuration> 
<property> 
<name>fs.defaultFS</name> 
<value>hdfs://hadoop10@: 9000</value> 
</property> 
<property> 
<name>hadoop.tmp.dir</name> 
<value>/data/hadoop_repo</value> 
</property> 
</configuration> 
[root@hadoop100 hadoop]# vi hdfs-site.xml 
<configuration> 
<property> 


<name>dfs.replication</name> 
<value>2</value> 

</property> 

<property> 
<name>dfs.namenode.secondary.http-address</name 


<value>hadoop1@@: 50098</value> 
</property> 
</configuration> 


[root@hadoop10@ hadoop]|# vi yarn-site. xml 
<configuration> 
<property> 
<name>yarn.nodemanager .aux-services</name> 
<value>mapreduce_shuffle</value> 
</property> 
<property> 
<name>yarn. resourcemanager. hostname</name> 
<value>hadoop100</value> 
</property> 
</configuration> 


[root@hadoop100 hadoop]# mv mapred-site.xml.template m 
apred-site.xml 
[root@hadoop1ee@ hadoop]# vi mapred-site.xml 
<configuration> 
<property> 
<name>mapreduce. framework .name</name> 
<value>yarn</value> 
</property> 
</configuration> 


[root@hadoop10@ hadoop]# vi slaves 
hadoop161 
hadoop162 





©) 把 hadoop100 节 点 上 修改 之 后 的 Hadoop 安 装 
目录 复制 到 其 他 两 个 从 市 点 。 


# 在 hadoop166 节 点 上 执行 


[root@hadoop100 hadoop]# scp -rq /data/soft/hadoop-2.7. 
5 hadoop101:/data/soft/ 


[root@hadoop100 hadoop|# scp -rq /data/soft/hadoop-2.7. 
5 hadoop1@2:/data/soft/ 





© 在 hadoop100 节 点 上 对 HDFS 进 行 格 式 化 。 


[root@hadoop1@@ hadoop ]# cd /data/soft/hadoop-2.7.5 
[root@hadoop10e@ hadoop-2.7.5]# bin/hdfs namenode -format 


D 启动 Hadoop 集 群 。 


# 在 hadoop166 节 点 上 执行 
[root@hadoop100 hadoop-2.7.5]# sbin/start-all.sh 


验证 。 


在 hadoop100 上 执行 jps 命 令 会 看 到 以 下 进程 信 


JAO 


[root@hadoop100 hadoop-2.7.5]# jps 
30101 SecondaryNameNode 


29878 NameNode 
30269 ResourceManager 





在 hadoop101 和 hadoop102 上 执行 jps 命 令 会 看 到 
以 下 进程 信息 。 
[root@hadoop161 soft]# jps 


4934 NodeManager 
4825 DataNode 


[root@hadoop102 soft]# jps 
3904 NodeManager 
3795 DataNode 





© ft SHADOOP HOME 环 培 变量 。 





为 了 后 面 操作 Hadoop 更 加 方便 ， 建 议 配 置 
HADOOP_ HOMES} ŠT & 


首先 在 hadoop100 这 个 节点 上 操作 ， 增 加 
HADOOP_HOME 变 量 ， 最 终 效果 如 下 。 


[root@hadoop10@ hadoop-2.7.5]# vi /etc/profile 
export JAVA_HOME=/data/soft/jdk1.8 


export HADOOP_HOME=/data/soft/hadoop-2.7.5 
export PATH=. :$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH 





(8) fEhadoop100. hadoop101, hadoop102ix 
34 Nla EA E ZooKeeper E FF .- 


O 下 载 ZooKeeper 安 装 包 。 


https://archive.apache.org/dist/zookeeper/zookeeper-3.4 


.9/zookeeper-3.4.9.tar.gz 





D 上 传 ZooKeeper 安 装 包 。 


把 zookeeper-3.4.9.tar.gz 安 装 包 上 传 到 
hadoop100 节 点 的 /data/soft 目 录 下 面 。 





G) 解压 。 


[root@hadoop1ee ~]# cd /data/soft 
[root@hadoop1ee soft]# tar -zxvf zookeeper-3.4.9.tar.gz 


(4) 修改 ZooKeeper 配 置 文件 。 


# 进入 配置 文件 目录 

[root@hadoop1ee soft]# cd zookeeper-3.4.9/conf 

# 修改 配置 文件 名 称 

[root@hadoop1ee conf]# mv zoo_sample.cfg zoo.cfg 
# 使 用 vi 修改 文件 

[root@hadoop1ee conf]# vi zoo.cfg 
dataDir=/data/soft/zookeeper-3.4.9/data 

server. @=hadoop1@0: 2888 : 3888 

server .1=hadoop101: 2888: 3888 

server. 2=hadoop1@2: 2888 : 3888 

# 创建 data 目 录 

[root@hadoop100 conf]# cd /data/soft/zookeeper-3.4.9 
[root@hadoop10@ zookeeper-3.4.9]# mkdir data 

# 新 建文 件 myid， 并 且 在 文件 内 输入 数字 8 
[root@hadoop100 zookeeper-3.4.9]# cd data 
[root@hadoop100 data]# vi myid 

0 





把 修改 好 配置 的 ZooKeeper 安 装 包 复 制 到 其 
他 两 个 节点 。 
# 在 hadoop166 这 个 节点 上 执行 scp 命 令 


[root@hadoop100 data]# scp -rq /data/soft/zookeeper-3.4 
.9 hadoop1@1: /data/soft 


[root@hadoop1iee data]# scp -rq /data/soft/zookeeper-3.4 
.9 hadoop1@2: /data/soft 





© 修改 hadoop101 和 hadoop102 上 的 ZooKeeper 
配置 。 


# 首先 修改 hadoop161 节 点 上 的 myid 文 件 
[root@hadoop101 ~]# cd /data/soft/zookeeper-3.4.9/data 


[root@hadoop101 data]# vi myid 
1 


# 然后 修改 hadoop162 节 点 上 的 myid 文 件 
[root@hadoop102 ~]# cd /data/soft/zookeeper-3.4.9/data 


[root@hadoop102 data]# vi myid 
2 





O 启动 ZooKeeper 集 和 群 。 


# 分 别 在 hadoop168、hadoop161、hadoop162 上 启动 ZooKeeper 进 
程 

# 在 hadoop166 上 启动 

[root@hadoop100 zookeeper-3.4.9]# bin/zkServer.sh start 


# 在 hadoop161 上 启动 
[root@hadoop161 zookeeper-3.4.9]# bin/zkServer.sh start 


# 在 hadoop162 上 启动 
[root@hadoop102 zookeeper-3.4.9]# bin/zkServer.sh start 





© 验证 。 


分 别 在 hadoop100、hadoop101、hadoop102 上 


执行 ps 命令 验证 是 否 有 QuorumPeerMain 进 程 。 
JP 


MRA, SUS DES S; 如 果 没 有 ， 





it BI XT Dv AY AAA zookeeper.out H EL- 


执行 bin/zkServer.sh status 命 令 会 发 现 ， 有 一 个 
节点 显示 为 leader， 其 他 两 个 节点 显示 为 follower。 











(9) 在 hadoop100、hadoop101、hadoop102、 
hadoop103 和 hadoop104 这 5 台 机 右上 配置 Flink,， 
为 Flink 集 群 内 的 所 有 节点 的 配置 都 一 样 ， 所 以 先 从 
第 一 台 机 器 hadoop100 开 始 配 置 。 








(把 Flink 的 安装 包 上 传 到 hadoop100 这 个 机 器 
Hy/data/soft H 3 F . 


(2) 解压 Flink 安 装 包 。 


[root@hadoop1ee ~]# cd /data/soft 
[root@hadoop100 soft]# tar -zxvf flink-1.6.1-bin-hadoop 


27-scala_2.11.tgz 





(3) 修改 配置 文件 。 


# 修改 flink-conf.yaml 配 置 文件 

[root@hadoop1ee soft]# cd flink-1.6.1 

[root@hadoopiee flink-1.6.1]# vi conf/flink-conf.yaml 
jobmanager.rpc.address: hadoop166 


# 修改 slaves 文 件 

[rootQhadoop166 flink-1.6.1]# vi conf/slaves 
hadoop1@3 

hadoop104 


# 修改 配置 HA 需要 的 参数 

[rootQhadoop166 flink-1.6.1]# vi conf/masters 
hadoop1@0: 8081 

hadoop1@1: 8081 

hadoop1@2: 8081 


[root@hadoop1e0e flink-1.6.1]# vi conf/flink-conf.yaml 

# 要 启用 高 可 用 ， 需 要 将 配置 文件 conf/flink-conf.yaml 中 的 high- 
availability mode 设 置 修改 为 zookeeper 

high-availability: zookeeper 
#Zookeeper 的 主机 名 和 端口 信息 ， 多 个 参数 之 间 用 逗号 隔 开 
high-availability.zookeeper.quorum: hadoop166:2181,hado 
op161:2181,hadoop162:2181 

# ZooKeeper 节 点 根 上 目录， 其 中 放置 所 有 集群 节点 的 namespace 
high-availability.zookeeper.path.root: /flink 

# ZooKeeper 点 集群 id， 其 中 放置 了 集群 所 需 的 所 有 协调 数据 
high-availability.cluster-id: /cluster_one 

# 建议 指定 HDFS 的 全 路 径 。 如 果菜 个 FLink 节 点 没有 配置 HDFSs 的 话 ， 
不 指定 HDFS 的 全 路 径 则 无 法 识 到 ，storageDir 存 储 了 恢复 一 个 JobMa 
nager 上 所 需 的 所 有 元 数据 。 

high-availability.storageDir: hdfs://hadoop1@0:9000/f1i 
nk/ha 














(4) 把 hadoop100 节 点 上 修改 配置 后 的 flink-1.6.1 





目录 复制 到 其 他 节点 。 


[root@hadoop1ee0 flink-1.6.1]# scp -rq /data/soft/flink- 
1.6.1 hadoop101: /data/soft 
[rootOhadoop166 flink-1.6.1]# scp -rq /data/soft/flink- 
1.6.1 hadoop102:/data/soft 


[root@hadoopiee flink-1.6.1]# scp -rq /data/soft/flink- 
1.6.1 hadoop1@3:/data/soft 
[root@hadoop1e0 flink-1.6.1]# scp -rq /data/soft/flink- 
1.6.1 hadoop104: /data/soft 





© 确认 Hadoop 伪 分 布 集群 已 经 启动 。 如 果 没 
有 启动 ， 则 需要 先 局 动 。 


[root@hadoop10e@ flink-1.6.1]# cd /data/soft/hadoop-2.7. 
5 


[ root@hadoop10e@ hadoop-2.7.5]# sbin/start-all.sh 








©) 确认 ZooKeeper 集 群 已 经 局 动 。 如 果 没 有 局 
动 ， 则 需要 先 局 动 。 


[root@hadoop100 zookeeper-3.4.9]# bin/zkServer.sh start 


[root@hadoop101 zookeeper-3.4.9]# bin/zkServer.sh start 
[root@hadoop102 zookeeper-3.4.9]# bin/zkServer.sh start 





D 启动 Flink Standalone HA 集群 ， 在 hadoop100 


“THA ETAT OOP ar 


[root@hadoop100@ flink-1.6.1]# bin/start-cluster.sh 
# 启动 之 后 会 显示 如 下 日 志 信 息 。 

Starting HA cluster with 3 masters. 

Starting standalonesession daemon on host hadoop166. 


Starting standalonesession daemon on host hadoop1@1. 
Starting standalonesession daemon on host hadoop1@2. 
Starting taskexecutor daemon on host hadoop1@3. 
Starting taskexecutor daemon on host hadoop1@4. 





验证 HA 集群 。 


丛 看 机 器 进程 会 发 现 如 下 情况 〈 此 处 只 列 出 
Flink 目 身 的 进程 信息 ， 不 包含 ZooKeeper 和 Hadoop 
进程 信息 忆 ) 








[root@hadoop10e flink-1.6.1]# jps 
20159 StandaloneSessionClusterEntrypoint 


[root@hadoop101 flink-1.6.1]# jps 
7795 StandaloneSessionClusterEntrypoint 


[root@hadoop102 flink-1.6.1]# jps 
5046 StandaloneSessionClusterEntrypoint 


[root@hadoop1@3 flink-1.6.1]# jps 
2091 TaskManagerRunner 


[root@hadoop105 flink-1.6.1]# jps 
8143 TaskManagerRunner 


为 JobbManager 贡 点 都 会 后 动 Web 服 务 ， 所 以 
也 可 以 通过 Web 界 面 进行 验证 。 


注意 : 此 时 就 算是 访问 hadoop101:8081， 
也 会 跳 转 回 hadoop100:8081。 因 为 现在 
hadoop100 是 Active 的 JobManager。 从 图 3.12 中 
也 可 以 看 出 ， 单 击 Job Manager 查 看 ， 显 示 哪 
个 节 点 ， 就 表示 哪个 记 点 现在 是 Active 的 。 

















hdfs://hadoop100:9000/flink/ha/ 


flink 


hadoop100:2181 











13.12 Flink HA 集群 中 的 JobManager 信 息 
3. 模拟 kill JobManager 进 程 


现在 ，hadoop100 节 点 上 的 JobManager 是 
Active。 这 里 模拟 ki 进程 的 情况 ， 来 验证 
hadoop101 和 hadoop102 上 的 Standby 状 态 的 
JobManager 是 否 可 以 正 第 切换 到 Active。 有 基体 命令 
如 下 。 


[root@hadoop10e flink-1.6.1]# jps 


20159 StandaloneSessionClusterEntrypoint 


# 执行 kil11 命 令 
[root@hadoopiee flink-1.6.1]# kill 20159 





4. 验证 JobManager 切 换 


hadoop100 节 点 上 的 JobManager 进 程 被 手工 kill 
后 ，hadoop101 或 者 hadoop102 上 的 JobManager 会 日 
动 切换 为 Active， 中 间 需 要 时 间 差 。 


访问 hadoop101 上 的 链接 
http://hadoop101:8081/#/jobmanager/config, #4 Jt, 
链接 对 应 页 面 中 JobManager 的 信息 。 此 时 会 发 现 
Job Manager 的 信息 变 为 hadoop101， 如 果 3.13 上 所 
示 ， 则 表示 JobManager 节 点 切换 成 功 〈 当 然 此 时 
Job Manager 的 信息 也 有 可 能 是 hadoop102) 。 











€ C fû |© hadoop101:8081/# 
& Apache Flink Dashboard Job Manager 


Configuration 


@ Overview 





high-availability zookeeper 


high-availability.cluster-id /cluster_one 


high-availability storageDir hdfs://nadoop100:9000/flink/ha/ 
high-availability Zookeeper path.root /flink 


high-availability zookeeper.quorum hadoop100:2181 


jobmanager.heap.mb 1024 


jobmanager.rpc.address hadoop101 


jobmanagerrpc.port 








45230 
parallelism.default 1 
taskmanager.heap.mb 1024 
taskmanager.memory.preallocate false 
taskmanager.numberOfTaskSlots 1 
web.port 8081 


图 3.13 ”JobManager 切 换 后 的 效果 


5. 重启 hadoop100 节 点 上 的 JobManagerj 进 程 


# 执行 如 下 命令 启动 JobManager 
[root@hadoop10e@ flink-1.6.1]# bin/jobmanager.sh start 


司 动 成 功 之 后 ， 可 以 访问 如 下 链接 奏 看 Job 


Manager 信 息 。 


http: //hadoop1@0: 8081/#/jobmanager/ config 





这 B 就 变 为 Standby 了 « 
Job ee 信息 还 是 hadoop101， 如 图 3.14 所 
不 。 





一 GCG Q |© hadoop101:38081/#/jobmanager/config 
Job Manager 
Configuration 
high-availability zookeeper 
high-availability.cluster-id /cluster_one 
high-availability. storageDir hdfs://hadoop100:9000/flink/ha/ 
= Job Manager 
high-availability zZookeeper.path.root flink 
SARRE high-availability.zookeeperquorum hadoop100:2181 

jobmanagerheap.mb 1024 
jobmanagerrpc.port 42626 
parallelism.default 1 
taskmanager.heap.mb 1024 
taskmanager.memory.preallocate false 
taskmanager.numberOfTaskSlots 1 

web.port 8081 








图 3.14 Job Manager 的 节点 信息 
3.4.3 Flink on Yarn 人 集群 HA 的 安装 和 配置 


Flink on Yarn 的 HA 利用 了 YARN 的 任务 恢复 机 
制 | 。 


在 这 里 也 需要 用 到 ZooKeeper， 主 要 是 因为 
Flink on Yarn 的 HA 虽然 依赖 YARN 的 任务 恢复 机 
制 ， 但 是 Flink 任 务 在 恢复 时 ， 需 要 依赖 检查 点 产生 
的 快照 。 而 这 些 快照 虽然 配置 在 HDFS 上 ， 但 是 其 
元 数据 信息 保存 在 ZooKeeper 中 ， 所 以 我 们 还 要 配 
置 ZooKeeper 的 信息 。 








Flink on Yarn 模 式 运 行 的 前 提 是 首先 有 一 个 
Hadoop 集 群 。Hadoop 和 集群 可 以 使 用 3.4.2 节 中 搭建 
的 集群 ，ZooKeeper 和 集群 也 使 用 3.4.2 节 中 搭建 的 集 
Bf 





基本 的 环境 信息 如 下 。 


e ZooKeeper 4: hadoop100、hadoop101、 
hadoop102. 

e Hadoop Ñ: hadoop100. hadoop101, 
hadoop102. 


Flink on Yarn HA 配置 的 具体 步骤 如 下 。 


1. 修改 hadoop100 中 yarn-site.xml 的 配置 ， 设 置 提 
区 应 用 程序 的 最 大 答 试 次 数 


[root@hadoop1iee /]# cd /data/soft/hadoop-2.7.5/etc/Hado 
op 
[ root@hadoop1ee@ hadoop]# vi yarn-site.xml 
<property> 
<name>yarn.resourcemanager.am.max-attempts</name> 
<value>4</value> 
<description> 
The maximum number of application master execution 
attempts. 
</description> 
</property> 


1 NO oe a a Hopp 他 区 


Desai ase hadoop|# scp -rq yarn-site.xml hadoop1 
Q1:/data/soft/hadoop-2.7.5/etc/hadoop/ 
[root@hadoop1@@ hadoop]|# scp -rq yarn-site.xml hadoop16 
2:/data/soft/hadoop-2.7.5/etc/hadoop/ 





2. 启动 Hadoop 集 群 


# 在 hadoop166 节 点 上 执行 启动 脚本 


[root@hadoop10@ hadoop]# cd /data/soft/hadoop-2.7.5 
[root@hadoop100 hadoop-2.7.5]# sbin/start-all.sh 





3， 修 改 Flink 相 关 配 置 


# 在 hadoop1868 市 点 上 进行 操作 ， 解 压 一 份 新 的 Flink 安 装 包 
[root@hadoop100 hadoop-2.7.5]# cd /data/soft/ 
[root@hadoop10e soft]# tar -zxvf flink-1.6.1-bin-hadoop 
27-scala_2.11.tgz 


# 修改 配置 文件 

[rootQ@hadoop166 soft]# cd flink-1.6.1 

[root@hadoop100@ flink-1.6.1]# vi conf/flink-conf.yaml 
high-availability: zookeeper 
high-availability.zookeeper.quorum: hadoop10@:2181,hado 
0p101: 2181 

high-availability.storageDir: hdfs://hadoop100@:9000/f1i 
nk/ha-yarn 

high-availability.zookeeper.path.root: /flink-yarn 
yarn.application-attempts: 10 





4. JAayFlink on Yarn ž*ž, MIHA 


首先 确认 Hadoop 集 群 和 ZooKeeper 集 和 群 已 经 正 
常 启 动 ， 然 后 在 hadoop100 节 点 上 启动 Flink 集 群 。 


[rootQ@hadoop166 flink-1.6.1]# bin/yarn-session.sh -n 2 


启动 成 功 以 后 ， 到 Hadoop 的 ResourceManager 
的 Web 界 面 上 查看 对 应 的 Flink 集 群 在 哪个 节点 上 ， 











如 图 3.15 所 示 。 





Application application_153904827479 


User: root 
Name: Flink session cluster 
Application Type: Apache Flink 
Application Tags: 
rnApplicationState: RUNNING: AM has registered with RM and started running. 
Queue: default 
FinalStatus Reported by AM: Application has not completed yet. 
Started: Tue Oct 09 09:50:28 +0800 2018 
Elapsed: 2mins, 41se 
Tra ee Applicatio ai ster 


< 
D 





Diagnostics: 
Total Res: e Preempted: <mem 
Total Number of Non-AM Containers Preempted: 0 
Total Number of AM Containers Preempted: 0 
Res e Preempted from aH ent Attempt: <mem 
Number of Non-AM Containers Preempted from Current Attempt: 0 
Aggregate Res: e Allocation: 164154 
tries 
Attempt ID i Logs 
39048274793 0003 000001 Tue Oct 9 09:50:28 +0800 2018 Logs 0 
of 1 entries 




















图 3.15 ResourceManager F HESAR E 





JobManager 进 程 就 在 对 应 市 点 
(YarnSessionClusterEntrypoint) 进程 中 ， 想 要 测试 
JobManager 的 HA 情况 ， 只 需要 利用 
YarnSessionClusterEntrypoint 进 行 测试 即 可 。 


执行 如 下 命令 手工 模拟 Kill 
JobManager (YarnSessionClusterEntrypoint) 进程 。 


[root@hadoopiee flink-1.6.1]# ssh hadoop1@2 
[root@hadoop102 flink-1.6.1]# jps 


5325 YarnSessionClusterEntrypoint 
[root@hadoopiee flink-1.6.1]# kill 5325 





在 Web 界 面 进行 查看 ， 发 现 这 个 程序 的 Attempt 
ID 变 为 00002 了 ， 说 明了 刚才 Kill 的 进程 重 忆 了， 如 图 
3.16 和 图 3.17 所 示 。 


All Appli 









































Cluste Cluster Metrics 
About Apps Apps Apps Apps Containers Memory Memory Memory 
Nodes Submitted Pending Running Completed Running Used Total Reserved 
Node tabas 1 0 1 0 1 1GB 16 GB 0B 
Applications - 

NEW Scheduler Metrics 

NENV SAVING Scheduler Type Scheduling Resource Type 

ACCEPTED Capacity\cheduler [MEMORY] <mem 

RUNNING 

FINISHED Show 20 v Witries 

FAILED 

KILLED I 中 User < Name ? Application Type < Queue StartTime © 
Scheduler application 1539048274793 0003 | root Flink Apache Flink default Tue Oct 9 

session 09:50:28 +0800 
> Tools cluster 2018 


Showina 1 to 1 of 1 entries 


aaa 


图 3.16 ”ResourceManager 中 的 任务 信息 





= t 
Name: F onc 
Application Type: Apache Flink 
Application Tags: 
rnApplicationState: RUNNING: AM has registered with RM and started n 
Queue: default 
FinalStatus Reported by AM: Application has not completed yet. 
Started: Tue Oct 09 09:50:28 +0800 2018 
Elapsed: 8mins, 39sec 
Tracking URL: ApplicationMaster 
Diagnostics: 


< 
w 








Total Resou 
Total Number of Non-AM Contain 
Total Numb f AM Contain 


Resour 
Number of Non-AM Containers Preempted from C 
Aggregate Reso 














Started $ Node á 
Tue Oct 9 09:56:38 +0800 2018 http://hadoop101:8042 Logs 
Tue Oct 9 09:50:28 +0800 2018 http://hadoop102:8042 Logs 














图 3.17 ResourceManager+ HJ Attempt ID 信息 


3.5 Flink Scala Shell 


初学 者 开 友 的 时 候 容 易 出 错 ， 每 次 都 打包 进行 
调试 会 比较 有 奢 烦 ， 并 且 也 不 好 定位 问题 ， 这 时 可 以 
在 Scala Shell 命 令 行 下 进行 调试 。Scala Shell 方 式 文 
持 流 处 理 和 批 处 理 。 当 启动 Scala Shell 命 令 行 之 
后 ， 两 个 不 同 的 ExecutionEnvironments 会 被 目 动 创 
建 。 使 用 senv (Stream) 和 benv (Batch) 分 别 去 处 
理 流 数 据 和 批 数据 (类 似 于 Spark-Shell 中 的 sc 变 


E) 


命令 格式 如 下 。 


bin/start-scala-shell.sh [local|remote|yarn] [options] 
<args> 


命令 中 的 参数 详细 解释 如 下 。 


e local [options] 使 用 Scala Shell 创 建 一 个 本 地 Flink 
集群 。 


# 指定 Flink 使 用 的 第 三 方 依赖 


-a <path/to/jar> | --addclasspath <path/to/jar> 





e remote [options] <host> <port> 使 用 Scala Shell 连 
接 一 个 远程 Flink 集 和 群 。 


# 指定 远程 Flink 集 群 JobManager 的 主机 名 或 者 IP 
<host> 
# 指定 远程 FLink 集 群 ]JobManager 的 端口 号 


<port> 
# 指定 FLink 使 用 的 第 三 方 依赖 
-a <path/to/jar> | --addclasspath <path/to/jar> 





e yarn [options] {#4 Scala Shell 创 建 一 个 Flink on 
Yarn 模 式 的 集群 。 


# 指定 分 配 的 YARN Container 的 数量 (等 于 TaskManager 的 数量 ) 
-n arg | --container arg 

# 指定 JobManager Container 使 用 的 内 存 ， 单 位 是 MB 
-jm arg | --jobManagerMemory arg 

# 在 YARN 上 给 应 用 设置 一 个 名 字 

-nm <value> | --name <value> 

# 指定 使 用 的 YARN 队 列 

-qu <arg> | --queue <arg> 

# 指定 每 个 TaskManager 使 用 的 Slot 数量 

-s <arg> | --slots <arg> 

# 指定 TaskManager Container 使 用 的 内 存 ， 单 位 是 MB 
-tm <arg> | --taskManagerMemory <arg> 

# 指定 Flink 使 用 的 第 三 方 依赖 

-a <path/to/jar> | --addClasspath <path/to/jar> 
# 指定 配置 文件 目录 

--configDir <value> 

# 打印 帮助 信息 

-h | --help 





参考 案例 的 代码 如 下 ， 效 束 如 图 3.18 所 示 。 





[root@hadoop100 flink-1.6.1]# bin/start-scala-shell.sh 
local 

Starting Flink Shell: 

Starting local Flink cluster (host: localhost, port: 80 
81). 

Connecting to Flink cluster (host: localhost, port: 808 
1). 

scala>val text = benv.fromElements("hello you", "hello w 


orld") 
scala>val counts = text.flatMap { _.toLowerCase.split(" 


\\W+") }.map { (_, 1) }.groupBy(@).sum(1) 
scala> counts.print() 





主意 : 在 使 用 本 地 模式 的 时 候 ， 如 果 本 
机 已 经 启动 了 Standalone 模 式 的 Flink， 则 会 报 
错 ， 提 示 端 口 已 被 占用 。 此 时 可 以 使 用 remote 
模式 ， 到 Flink Web 界 面 中 查看 对 应 的 host 和 


port 信 息 。 











= val text = Heh ee ee helio uour pg onr ) 
ite org.apache. fli cala et [st ng] = e.flink.api.scala.DataSet@237ee2e1 


cala> val t.flatmap { _ rca itC'\\w+") }.map { ( a ape) seu 
oes rena: EET Flink. api. ona. 人 znt)] = org: ie link.api aa ? 


scala> counts.print() 
(hello, 2) 

(world,1) 

(you, 1) 








scala> 





图 3.18 Flink Scala Shell 执 行 效果 


第 4 章 Flink% H APRE HE 


本 章 主 要 针对 Flink DataStream 和 DataSet 的 常用 
API 进 行 分 析 和 讲解 ， 也 会 涉及 Flink TableAPI 和 
Flink SQL 的 一 些 单 见 操作 。 


4.1 Flink API 的 抽象 级 别 分 析 





Flink 中 提供 了 4 种 不 同 层次 的 API， 如 图 4.1 所 
示 ， 每 种 API 在 简洁 和 易 用 之 间 有 自己 的 权衡 ， 适 
用 于 不 同 的 场景 。 目 前 其 中 的 3 种 API 用 得 比较 多 ， 
下 面 自 下 同上 介绍 这 4 种 API。 








。 低 级 API: 提供 了 对 时 间 和 状态 的 细 粒 度 控 制 ， 
简洁 性 和 易 用 性 较 关 ， 主 要 应 用 在 对 一 些 复杂 
事件 的 处 理 逻 辑 上 。 

。 核心 API: 主要 提供 了 针对 流 数 据 和 离线 数据 的 
处 理 ， 对 低级 API 进 行 了 一 些 封 梁 ， 提 代 了 











filter、sum、max、min 等 高 级 函数 ， 人 简单 且 易 
用 ， 所 以 在 工作 中 应 用 比较 广泛 。 

Table API: 一 般 与 DataSet 或 者 DataStream 紧 密 
关联 ， 首 先 通过 一 个 DataSet 或 DataStream 创 建 
出 一 个 Table; 然后 用 类 似 于 filter、join 或 者 
select 天 系 型 转化 操作 来 转化 为 一 个 新 的 Table 对 
象 ; 最 后 将 一 个 Table 对 象 转 回 一 个 DataSet 或 
DataStream。 与 SQL 不 同 的 是 ，Table API 的 查询 
不 是 一 个 指定 的 SQL 字符 串 ， 而 是 调用 指定 的 
API 方 法 。 

SQL: Flink 的 SQL 集 成 是 基于 Apache Calcite 

HJ, Apache Calcite 实 现 了 标准 的 SQL， 使 用 起 
来 比 其 他 API 更 加 有 灵活， 因为 可 以 直接 使 用 SQL 
语句 。Table API 和 SQL 可 以 很 容易 地 结合 在 一 
块 使 用 ， 它 们 都 返回 Table 对 象 。 


高 级 语言 SQL 


声明 式 DSL 语 法 Table API 
| ves | pa 
ocessin 


低级 API 








图 4.1 Flink API 抽 象 级 别 
4.2 Flink DataStreamf) #7 FH API 


DataStream API} 2447 A338: DataSource, 


Transformation, Sink. 


。DataSource 是 程序 的 数据 源 输 入 ， 可 以 通过 
StreamExecutionEnvironment.addSource(sourceFur 
为 程序 添加 一 个 数据 源 。 

。 Transformation 是 具体 的 操作 ， 它 对 一 个 或 多 个 
输入 数据 源 进行 计算 处 理 ， 比 如 Map、FlatMap 
和 Filter 等 操作 。 

。 Sink 是 程序 的 输出 ， 它 可 以 把 Transformation 处 
理 之 后 的 数据 输出 到 指定 的 存储 介质 中 。 





4.2.1 DataSource 


Flink 针 对 DataStream 提 供 了 大 量 的 已 经 实现 的 
DataSource 〈 数 据 源 ) 接口 ， 比 如 下 面 4 种 。 


1. 基于 文件 


readTextFile(path) 


LAMA SCTE, SOPRA TextInputFormati& íT 
谈 取 规则 并 返回 。 


2. 基于 Socket 


socketTextStream 


fromCollection(Collection) 


通过 Java 的 Collection 集 合 创建 一 个 数据 流 ， 集 
合 中 的 所 有 元 素 必 须 是 相同 类 型 的 。 


4. 日 定义 输入 


addSource 可 以 实现 读 取 第 三 方 数 据 源 的 数据 。 


Flink 也 提供 了 一 批 内 置 的 Connector CE 
ax) 。 连 接 器 会 提供 对 应 的 Source 支 持 ， 如 表 4.1 所 
A 


表 4.1 Flink 内 置 的 连接 器 信息 











Apache Cassandra 


Amazon Kinesis Data Streams 


Elasticsearch 





[| 


Flink 通 过 Apache Bahir 组 件 提供 了 对 这 些 连 接 
器 的 文 持 ， 如 表 4.2 所 示 。 


表 4.2 ”Flink 通 过 Apache Bahir 组 件 支持 的 连接 器 信息 


是 否 提 供 Source 支 持 是 否 提供 Sink 支 持 
Redis 
Akka 


























=i 
e e ee 
ma ° 
口 











注意 : Flink 提 供 的 这 些 数据 源 接口 的 容 
错 性 保证 如 表 4.3 所 示 。 





724.3 DataSource 提供 的 容错 情况 


o 





Exactly-once〈 仅 一 次 ) 


vio 
At-most-once (最 多 一 次 ) 
Exactly-once 〈 仅 一 次 ) 需要 使 用 0.10 及 以 上 版 本 


当然 也 可 以 目 定义 数据 源 ， 有 两 种 方式 实现 。 














。 通 过 实现 SourceFunction 接 口 来 日 定义 无 并 行 度 
(也 就 是 并 行 度 只 能 为 1) 的 数 据 源 。 
。 通 过 实现 ParallelSourceFunction 接口 或 者 继承 
RichParallelSourceFunction 来 自 定 义 有 并 行 度 的 
数据 源 。 





需求 : 实现 并 行 度 只 能 为 1 的 自 定 义 DataSource 
以 及 SourceFunction 接 口 。 


分 析 : 模拟 产生 从 1 开始 的 递增 数字 ， 每 次 递 
增加 1。 


Java 代 人 码 实 现 如 下 。 





package xuwei.tech.streaming.custormSource; 


import org.apache.Flink.streaming.api.functions.source. 
SourceFunction; 


/** 

* 目 定义 实现 并 行 度 为 1 的 Source 

* JER: 

* SourceFunction 和 SourceContext 都 需要 指定 数据 类 型 〈 泛 型 ) 

*x 如 果 不 指定 ， 代 码 运 行 的 时 候 会 报错 

* Caused by: org.apache.Flink.api.common.functions.Inv 
alidTypesException: 

* The types of the interface org.apache.Flink.streamin 
g.api.functions.source. 
SourceFunction could not be inferred. 

* Support for synthetic interfaces, lambdas, and gener 
ic or raw types is limited 
at this point 

* 


x 

* Created by xuwei.tech 

*/ 
public class MyNoParalleSource implements SourceFunctio 
n<Long>{ 


private long count = 1L; 


private boolean isRunning = true; 


* 主要 的 方法 

* 启动 一 个 Source 

* 大 部 分 情况 下 ， 都 需要 在 这 个 run 方 法 中 实现 一 个 循环 
* 这 样 束 可 以 循环 产生 数据 了 

* 

* 


@param ctx 
* @throws Exception 
*/ 
@Override 
public void run(SourceContext<Long> ctx) throws Exc 
eption { 
while(isRunning) { 
ctx.collect(count) ; 
count++; 
// 每 秒 产生 一 条 数据 
Thread. sleep(10@@) ; 


* 执行 cancel 操 作 的 时 候 会 调用 的 方法 
* 
*7 
@Override 
public void cancel() { 
isRunning = false; 


} 





Scala 代 码 实 现 如 下 。 





package xuwei.tech.streaming.custormSource 


import org.apache.Flink.streaming.api.functions.source. 
SourceFunction 
import org.apache.Flink.streaming.api.functions.source. 
SourceFunction.SourceContext 
JEX 

* 目 定义 实现 并 行 度 为 1 的 source 

* Created by xuwei.tech 

s 
class MyNoParallelSourceScala extends SourceFunction[Lo 


ng]{ 


var count = 1L 
var isRunning = true 


override def run(ctx: SourceContext[Long]) = { 
while(isRunning){ 
ctx.collect(count) 
count+=1 
Thread.sleep(1000) 


} 
} 


override def cancel() = { 
isRunning = false 
} 
} 








需求 : 实现 文 持 多 并 行 度 的 目 定 义 DataSource 
以 及 ParallelSourceFunction 接 口 。 


分 析 : 模拟 产生 从 1 开始 的 递增 数字 ， 每 次 递 
增加 1。 


Java 代 人 码 实 现 如 下 。 





package xuwei.tech.streaming.custormSource; 


import org.apache.Flink.streaming.api.functions.source. 
ParallelSourceFunction; 


/** 

* 目 定义 实现 一 个 文 持 多 并 行 度 的 Source 

* Created by xuwei.tech 

*/ 
public class MyParalleSource implements ParallelSourceF 
unction<Long> { 





private long count = 1L; 
private boolean isRunning = true; 


/** 
* EBA 
* 启动 一 个 Source 
* 大 部 分 情况 下 ， 都 需要 在 这 个 run 方 法 中 实现 一 个 循环 ， 这 样 
就 可 以 循环 产生 数据 了 
* @param ctx 
* @throws Exception 
*/ 
@Override 
public void run(SourceContext<Long> ctx) throws Exc 
eption { 
while(isRunning) { 


ctx.collect(count) ; 
count++; 

// 每 秒 产生 一 条 数据 
Thread.sleep(1000); 


[rt 
* 取消 一 个 cancel 的 时 候 会 调用 的 方法 
*/ 
@Override 
public void cancel() { 
isRunning = false; 


} 





Scala 代 码 实 现 如 下 。 





package xuwei.tech.streaming.custormSource 


import org.apache.Flink.streaming.api.functions.source. 
ParallelSourceFunction 

import org.apache.Flink.streaming.api.functions.source. 
SourceFunction.SourceContext 


/** 

* 目 定 义 实现 一 个 文 持 多 并 行 度 的 Source 

* Created by xuwei.tech 

a 
class MyParallelSourceScala extends ParallelSourceFunct 
ion[ Long ]{ 





var count = 1L 


var isRunning = true 


override def run(ctx: SourceContext[Long]) = { 
while(isRunning) { 
ctx.collect(count) 
count+=1 
Thread. sleep(10ee) 
} 


} 


override def cancel() = { 
isRunning = false 
} 
} 











需求 : 实现 文 持 多 并 行 度 的 目 定义 


DataSource, 2k4RichParallelSourceFunction2s . 


分 析 : 模拟 产生 从 1 开始 的 递增 数字 ， 每 次 递 
增加 1。 


Java 代 人 码 实 现 如 下 。 





package xuwei.tech.streaming.custormSource; 


import org.apache.Flink.configuration. Configuration; 
import org.apache.Flink.streaming.api.functions.source. 
RichParallelSourceFunction; 


/** 
* 目 定义 实现 一 个 文 持 多 并 行 度 的 Source 
* RichParallelSourceFunction 会 额外 提供 open 和 close 方 法 
* 如 果 在 source 中 需要 获取 其 他 链接 资源 ， 那 么 可 以 在 open 方 法 中 
打开 资源 链接 ， 在 close 中 关闭 资源 链接 
* Created by xuwei.tech 
*/ 
public class MyRichParalleSource extends RichParallelSo 
urceFunction<Long> { 
private long count = 1L; 
private boolean isRunning = true; 





JEX 

wE AHIA 

* 启动 一 个 Source 

* 大 部 分 情况 下 ， 都 需要 在 这 个 run 方 法 中 实现 一 个 循环 ， 这 样 
就 可 以 循环 产生 数据 了 

* @param ctx 

* @throws Exception 


*/ 
@Override 
public void run(SourceContext<Long> ctx) throws Exc 
eption { 
while(isRunning) { 
ctx.collect(count) ; 
count++; 
// 每 秒 产生 一 条 数据 
Thread .sleep(1666) ; 
} 
[tt 
* 取消 一 个 cancel 的 时 候 会 调用 的 方法 
*/ 


@Override 


public void cancel() { 
isRunning = false; 


} 


/** 
* 这 个 方法 只 会 在 最 开始 的 时 候 被 调用 一 次 
* 实现 获取 链接 的 代码 
* @param parameters 
* @throws Exception 
7 
@Override 
public void open(Configuration parameters) throws E 
xception { 
System.out.println("open...... ae 
super .open(parameters) ; 





} 
[tt 
* 实现 关闭 链接 的 代码 
* @throws Exception 
a 
@Override 
public void close() throws Exception { 
super.close(); 


} 





Scala 代 码 实 现 如 下 。 





package xuwei.tech.streaming.custormSource 


import org.apache.Flink.configuration.Configuration 
import org.apache.Flink.streaming.api.functions.source. 
RichParallelSourceFunction 


import org.apache.Flink.streaming.api.functions.source. 
SourceFunction.SourceContext 


pre 

* 上 自 定 义 实 现 一 个 文 持 多 并 行 度 的 Source 

* Created by xuwei.tech 

*/ 
class MyRichParallelSourceScala extends RichParallelSou 
rceFunction|[ Long ]{ 





var count = 1L 
var isRunning = true 


override def run(ctx: SourceContext[Long]) = { 
while(isRunning) { 
ctx.collect(count) 
count+=1 
Thread. sleep(10e@) 


} 
} 


override def cancel() = { 
isRunning = false 


} 


override def open(parameters: Configuration): Unit = 
super.open(parameters) 


override def close(): Unit = super.close() 


} 





4.2.2 Transformation 


Flink 针 对 DataStream 提 供 了 大 量 的 已 经 实现 的 


算 子 。 








Map: 输入 一 个 元 素 ， 然 后 返回 一 个 元 素 ， 中 间 
可 以 进行 清洗 转换 等 操作 。 

FlatMap: 输入 一 个 元 素 ， 可 以 返回 零 个 、 一 个 
或 者 多 个 元 聚 。 

Filter: 过 滤 函 数 ， 对 传 入 的 数据 进行 判断 ， 符 
合 条 件 的 数据 会 被 留 下 。 








KeyBy: 根据 指定 的 Key 进 行 分 组 ，Key 相 同 的 
数据 会 进入 同一 个 分 区 。 
KeyBy 的 两 种 典型 用 法 如 下 。 


o DataStream.keyBy("someKey") 指定 对 象 中 的 
someKey 段 作为 分 组 Key。 

o DataStream.keyBy(0) 指定 Tuple 中 的 第 一 个 元 
RYE AS Key. 








Reduce: 对 数据 进行 聚合 操作 ， 结 合 当 前 元 素 


和 上 一 次 Reduce 返 回 的 值 进行 聚合 操作 ， 然 后 
返回 一 个 新 的 值 。 

Aggregations: sum()、min()、max() 等 。 

Union: GIFS, MNRAS AAT FN 
数据 ， 但 是 Union 有 一 个 限制 ， 吏 是 所 有 合并 的 
流 类 型 必须 是 一 致 的 。 

Connect: 和 Union 类 似 ， 但 是 只 能 连接 两 个 流 ， 
两 个 流 的 数据 类 型 可 以 不 同 ， 会 对 两 个 流 中 的 
数据 应 用 不 同 的 处 理 方法 。 

coMap 和 coFlatMap: 在 ConnectedStream 中 需要 
使 用 这 种 函数 ， 类 似 于 Map 和 flatMap。 

Split: 根据 规则 把 一 个 数据 流 切 分 为 多 个 流 。 
Select: 和 Split 配 合 使 用 ， 选 择 切 分 后 的 流 。 








另外 ，Flink 针 对 DataStream 提 供 了 一 些 数据 分 
区 规则 ， 具 体 如 下 。 


e Random partitioning: 随机 分 区 。 


DataStream. shuffle() 


e Rebalancing: 对 数据 集 进 行 再 平衡 、 重 分 区 和 
消除 数据 倾斜 。 


DataStream.rebalance() 


e Rescaling: 重新 调节 。 


如 果 上 游 操 作 有 2 个 并 友 ， 而 下 游 操 作 有 4 个 并 
发 ， 那 么 上 游 的 1 个 并 发 结果 分 配给 了 下 游 的 2 个 并 
发 操作 ， 另 外 的 1 个 并 发 结果 则 分 配给 了 下 游 的 另 
外 2 个 并 发 操作 。 男 一 方面 ， 下 游 有 2 个 并 发 操作 而 
上 游 有 4 个 并 发 操作 ， 那 么 上 游 的 其 中 2 个 操作 的 结 
果 分 配给 了 下 游 的 一 个 并 发 操作 ， 而 男 外 2 个 并 友 
操作 的 结果 则 分 配给 了 另外 1 个 并 友 操 作 。 





Rescaling 与 Rebalancing 的 区 别 为 Rebalancing 会 
产生 全 量 重 分 区 ， 而 Rescaling 不 会 。 











e Custom partitioning: 目 定 义 分 区 。 


和 目 定义 分 区 实现 Partitioner 接 口 的 方法 如 下 。 
或 者 


需求 : 创建 目 定 义 的 分 区 规则 ， 根 据 数 字 的 奇 
偶 性 来 分 区 。 


Java 代 人 码 实 现 如 下 。 





package xuwei.tech.streaming.custormPartition; 


import org.apache.Flink.api.common.functions.Partitione 
r5 


/** 
* 目 定义 分 区 规则 ， 根 据 数值 的 奇 倘 性 分 区 
* Created by xuwei.tech 
*/ 
public class MyPartition implements Partitioner<Long> { 
@Override 
public int partition(Long key, int numPartitions) { 
System.out.println(" 分 区 总 数 : "+numPartitions) ; 
if(key % 2 == @){ 
return ð; 





package xuwei.tech.streaming.custormPartition; 


import org.apache.Flink.api.common. functions .MapFunctio 
n; 

import org.apache.Flink.api.java.tuple.Tuple1; 

import org.apache.Flink.streaming.api.DataStream.DataSt 
ream; 

import org.apache.Flink.streaming.api.DataStream.DataSt 
reamSource; 

import org.apache.Flink.streaming.api.environment.Strea 
mExecutionEnvironment ; 

import xuwei.tech.streaming.custormSource.MyNoParalleSo 
urce; 


/** 
* 使 用 上 自 定 义 的 Partition 
* Created by xuwei.tech 
*/ 
public class SteamingDemoWithMyParitition { 


public static void main(String[] args) throws Excep 
tion{ 


StreamExecutionEnvironment env = StreamExecutio 
nEnvironment. getExecutionEnvironment() ; 

env.setParallelism(2); 

DataStreamSource<Long> text = env.addSource(new 
MyNoParalleSource()); 


// 对 数据 进行 转换 ， 把 Long 类 型 转 成 TupLle1 类 型 
DataStream<Tuple1l<Long>> tupleData = text.map(n 


ew MapFunction<Long, Tuple1 
<Long>>() { 
@Override 
public Tuple1<Long> map(Long value) throws 
Exception { 
return new Tuplel<>(value) ; 


} 
}); 
// 分 区 之 后 的 数据 
DataStream<Tuplel<Long>> partitionData= tupleDa 
ta.partitionCustom(new 
MyPartition(), 0); 
DataStream<Long> result = partitionData.map(new 
MapFunction<Tuplei<Long>, 
Long>() { 
@Override 
public Long map(Tuplei<Long> value) throws 
Exception { 
System.out.println(" 当 前 线程 id: " + Thre 
ad.currentThread().getId() + ",value: " + value); 
return value.getField(@) ; 
} 
})3 


result.print().setParallelism(1) ; 


env.execute("SteamingDemoWithMyParitition" ) ; 





Scala 代 码 实 现 如 下 。 





package xuwei.tech.streaming.streamAPI 


import org.apache.Flink.api.common.functions.Partitione 
r 


[EX 
* Created by xuwei.tech 
"f 


class MyPartitionerScala extends Partitioner[Long]{ 


override def partition(key: Long, numPartitions: Int) 
= { 
println(" 分 区 总 数 : "+numPartitions) 
if(key % 2 ==0){ 
0 


yelse{ 


package xuwei.tech.streaming.streamAPI 
import java.util 


import org.apache.Flink.streaming.api.collector.selecto 
r.OutputSelector 

import org.apache.Flink.streaming.api.scala.StreamExecu 
tionEnvironment 

import xuwei.tech.streaming.custormSource.MyNoParallelS 
ourceScala 


/** 


* Created by xuwei.tech 


*/ 


object StreamingDemoMyPartitionerScala { 
def main(args: Array[String]): Unit = { 


val env = StreamExecutionEnvironment. getExecutionEn 
vironment 
env.setParallelism(2) 


// 隐 式 转换 


import org.apache.Flink.api.scala._ 


val text = env.addSource(new MyNoParallelSourceScal 


a) 


// 把 Long 类 型 的 数据 转 成 Tuple 类 型 

val tupleData = text.map(line=>{ 
Tuplei(line)// 注意 Tuple1 的 实现 方式 

}) 


val partitionData = tupleData.partitionCustom(new M 
yPartitionerScala,®) 


val result = partitionData.map(line=>{ 
println(" 当 前 线程 id: "+Thread.currentThread().getI 
d+",value: "+line) 
line. 1 


}) 


result.print().setParallelism(1) 


env.execute("StreamingDemoWithMyNoParallelSourceSca 
la") 
} 





4.2.3 Sink 


Flink 针 对 DataStream 提 供 了 大 量 的 已 经 实现 的 
数据 目的 地 (Sink) ， 上 有 具体 如 下 所 示 。 





。writeAsText(): 将 元 又 以 字符 串 形 式 逐 行 写 入 ， 
这 些 字 符 串 通过 调用 每 个 元 系 的 toString0) 方 法 
来 获取 。 

print() / printToErr(): 打印 每 个 元 素 的 toString() 
方法 的 值 到 标准 输出 或 者 标准 错误 输出 流 中 。 
目 定 义 输出 : addSink 可 以 实现 把 数据 输出 到 第 
三 方 存储 介质 中 。 








系统 提供 了 一 批 内 置 的 Connector， 它 们 会 提供 
对 应 的 Sink 文 持 ， 如 表 4.1 所 示 。 


Flink 通 过 Apache Bahir 组 件 也 提供 了 对 这 些 
Connector 的 支持 ， 如 表 4.2 所 示 。 


— 


注意 : 针对 Flink 提 供 的 这 些 Sink 组 件 ， 它 
们 可 以 提供 的 容错 性 保证 如 表 4.4 所 示 。 








表 4.4 _ Sink 组 件 容 错 性 保证 


aiii 











Kafka 
Produce 





当然 你 也 可 以 自 定 义 Sink， 有 两 种 实现 方式 。 


。 实现 SinkFunction 接 口 。 
e 继承 RichSinkFEunction 交 。 


目 定 义 Sink 人 代码 实现 建议 参考 RedisSink。 





/* 

* Licensed to the Apache Software Foundation (ASF) und 
er one or more 

* contributor license agreements. See the NOTICE file 
distributed with 

* this work for additional information regarding copyr 
ight ownership. 

* The ASF licenses this file to You under the Apache L 
icense, Version 2.0 

* (the "License"); you may not use this file except in 
compliance with 

* the License. You may obtain a copy of the License a 


* http://www.apache.org/licenses/LICENSE-2.0 

* Unless required by applicable law or agreed to in wr 
iting, software 

* distributed under the License is distributed on an 
AS IS" BASIS, 

* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either 

express or implied. 

* See the License for the specific language governing 
permissions and 

* limitations under the License. 


*/ 


package org.apache.Flink.streaming.connectors.redis; 


import org.apache.Flink. configuration. Configuration; 
import org.apache.Flink.streaming.api.functions.sink.Ri 
chSinkFunction; 

import org.apache.Flink.streaming.connectors.redis.comm 


on.config.FlinkJedisClusterConfig; 

import org.apache.Flink.streaming.connectors.redis.comm 
on.config.FlinkJedisConfigBase; 

import org.apache.Flink.streaming.connectors.redis.comm 
on.config.FlinkJedisPoolConfig; 

import org.apache.Flink.streaming.connectors.redis.comm 
on.config.FlinkJedisSentinelConfig; 

import org.apache.Flink.streaming.connectors.redis.comm 
on.container.RedisCommandsContainer ; 

import org.apache.Flink.streaming.connectors.redis.comm 
on.container.RedisCommands ContainerBuilder; 

import org.apache.Flink.streaming.connectors.redis.comm 
on.mapper.RedisCommand; 

import org.apache.Flink.streaming.connectors.redis.comm 
on.mapper.RedisDataType; 

import org.apache.Flink.streaming.connectors.redis.comm 
on.mapper.RedisCommandDescription; 

import org.apache.Flink.streaming.connectors.redis.comm 
on.mapper.RedisMapper ; 


import org.slf4j.Logger; 
import org.slf4j.LoggerFactory; 


import java.io.IOException; 
import java.util.Objects; 


[IF 

* A sink that delivers data to a Redis channel using t 
he Jedis client. 

* <p> The sink takes two arguments {@link FlinkJedisCo 
nfigBase} and 
{@link RedisMapper}. 

* <p> When {@link FlinkJedisPoolConfig} is passed as t 
he first argument, 

* the sink will create connection using {@link redis.c 
lients.jedis.JedisPool}. 


Please use this when 

* you want to connect to a single Redis server. 

* <p> When {@link FlinkJedisSentinelConfig} is passed 
as the first argument, the 
Sink will create connection 

* using {@link redis.clients.jedis.JedisSentinelPool}. 

Please use this when you 
want to connect to Sentinel. 

* <p> Please use {@link FlinkJedisClusterConfig} as th 
e first argument if you want 
to connect to 

* a Redis Cluster. 

* <p>Example: 

* 

* <pre> 

*{@code 

*public static class RedisExampleMapper implements Red 
isMapper<Tuple2<String, String>> { 


四 private RedisCommand redisCommand; 

* 

5 public RedisExampleMapper(RedisCommand redisComma 
nd){ 

* this.redisCommand = redisCommand; 

} 

= public RedisCommandDescription getCommandDescript 
ion() { 

* 


return new RedisCommandDescription(redisComma 
nd, REDIS ADDITIONAL_KEY) ; 

j } 

= public String getKeyFromData(Tuple2<String, Strin 
g> data) { 

X return data.f®ð; 

i } 

加 public String getValueFromData(Tuple2<String, Str 
ing> data) { 

5 return data.f1; 


Su 


PI 

*JedisPoolConfig jedisPoolConfig = new JedisPoolConfig 
.Builder() 

i . setHost(REDIS_HOST).setPort(REDIS_PORT).build(); 


*new RedisSink<String>(jedisPoolConfig, new RedisExamp 
leMapper (RedisCommand.LPUSH) ) ; 

*}</pre> 

* 

* @param <IN> Type of the elements emitted by this sin 
> 
public class RedisSink<IN> extends RichSinkFunction<IN> 


i 


private static final long serialVersionUID = 1L; 


private static final Logger LOG = LoggerFactory.get 

Logger(RedisSink.class); 
/** 

* This additional key needed for {@link RedisDataT 
ype#HASH} and {@link 
RedisDataType#SORTED SET}. 

* Other {@link RedisDataType} works only with two 
variable i.e. name of the 
list and value to be added. 

* But for {@link RedisDataType#HASH} and {@link Re 
disDataType#SORTED_SET} we need three variables. 

* <p>For {@link RedisDataType#HASH} we need hash n 
ame, hash key and element. 

* {@code additionalKey} used as hash name for {@li 
nk RedisDataType#HASH} 

* <p>For {@link RedisDataType#SORTED_SET} we need 
set name, the element and it's score. 

* {@code additionalKey} used as set name for {@lin 
k RedisDataType#SORTED_SET} 


27 

private String additionalkey; 

private RedisMapper<IN> redisSinkMapper ; 
private RedisCommand redisCommand; 


private FlinkJedisConfigBase FlinkJedisConfigBase; 
private RedisCommandsContainer redisCommandsContain 
er; 


[** 
* Creates a new {@link RedisSink} that connects to 
the Redis server. 
* 
* @param FlinkJedisConfigBase The configuration of 
{@link FlinkJedisConfigBase} 
* @param redisSinkMapper This is used to generate 
Redis command and key value 
from incoming elements. 
Eh 
public RedisSink(FlinkJedisConfigBase FlinkJedisCon 
figBase, RedisMapper<IN> 
redisSinkMapper) { 
Objects.requireNonNull(FlinkJedisConfigBase, “R 
edis connection pool config should 
not be null"); 
Objects.requireNonNull(redisSinkMapper, "Redis 
Mapper can not be null"); 
Objects.requireNonNull(redisSinkMapper.getComma 
ndDescription(), "Redis 
Mapper data type description can not be null"); 


this.FlinkJedisConfigBase = FlinkJedisConfigBas 
e; 


this.redisSinkMapper = redisSinkMapper ; 
RedisCommandDescription redisCommandDescription 


= redisSinkMapper.getCommandDescription() ; 
this.redisCommand = redisCommandDescription.get 
Command () ; 
this.additionalKey = redisCommandDescription. ge 
tAdditionalKey() ; 
} 
| 
* Called when new data arrives to the sink, and fo 
rwards it to Redis channel. 
* Depending on the specified Redis data type (see 
{@link RedisDataType}), 
* a different Redis command will be applied. 
* Available commands are RPUSH, LPUSH, SADD, PUBLI 
SH, SET, PFADD, HSET, ZADD. 
* @param input The incoming data 
ai 
@Override 
public void invoke(IN input) throws Exception { 
String key = redisSinkMapper.getKeyFromData(inp 
ut); 
String value = redisSinkMapper.getValueFromData 
(input) ; 


Switch (redisCommand) { 
case RPUSH: 
this.redisCommandsContainer.rpush(key, 


value); 
break; 
case LPUSH: 
this.redisCommandsContainer. lpush(key, 
value); 
break; 
case SADD: 
this.redisCommandsContainer.sadd(key, v 
alue ) ; 


break; 


case SET: 
this.redisCommandsContainer.set(key, va 
lue); 
break; 
case PFADD: 
this.redisCommandsContainer.pfadd(key, 
value); 
break; 
case PUBLISH: 
this.redisCommandsContainer.publish(key 
» Value); 
break; 
case ZADD: 
this.redisCommandsContainer. zadd(this.a 
dditionalKey, value, key); 
break; 
case ZREM: 
this.redisCommandsContainer.zrem(this.a 
dditionalKey, key); 
break; 
case HSET: 
this.redisCommandsContainer.hset(this.a 
dditionalKey, key, value); 
break; 
default: 
throw new IllegalArgumentException("Can 
not process such data type: " + redisCommand) ; 


} 
} 


/** 
* Initializes the connection to Redis by either cl 
uster or sentinels or single server. 
* @throws IllegalArgumentException if jedisPoolCon 
fig, jedisClusterConfig and 
jedisSentinelConfig are all null 


*/ 
@Override 
public void open(Configuration parameters) throws E 
xception { 
try { 
this.redisCommandsContainer = RedisCommands 
ContainerBuilder.build(this.FlinkJedisConfigBase); 
this.redisCommandsContainer.open(); 
} catch (Exception e) { 
LOG.error("Redis has not been properly init 
ialized: ", e); 
throw e; 


pre 
* Closes commands container. 
* @throws IOException if command container is unab 
le to close. 


*/ 
@Override 
public void close() throws IOException { 
if (redisCommandsContainer != null) { 


redisCommandsContainer.close(); 





下 面 以 RedisSink 为 例 演 示 有 具体 的 用 法 ， 这 里 面 
用 到 了 Redis 中 的 List 数 据 类 型 。 


需求 : 接收 Socket 传 输 过 来 的 数据 ， 把 数据 你 


存 到 Redis 中 。 


注意 : 针对 List 数 据 类 型 ， 我 们 在 定义 
getCommandDescription 方 法 的 时 候 ， 使 用 new 
RedisCommandDescription(RedisCommand.LPUS] 





如 果 是 Hash 数 据 类 型 ， 在 定义 
getCommandDescription 方 法 的 时 候 ， 需 要 使 用 new 
Re- 
disCommandDescription(RedisCommand.HSET,"hashlI 
在 构造 函数 中 需要 直接 指定 Hash 数 据 类 型 的 Key 的 
名 称 。 





Java 代 人 码 实 现 如 下 。 





package xuwei.tech.streaming.sink; 


import org.apache.Flink.api.common. functions .MapFunctio 


n; 

import org.apache.Flink.api.java.tuple.Tuple2; 

import org.apache.Flink.streaming.api.DataStream.DataSt 
ream; 

import org.apache.Flink.streaming.api.DataStream.DataSt 
reamSource; 

import org.apache.Flink.streaming.api.DataStream.Single 
OutputStreamOperator ; 

import org.apache.Flink.streaming.api.environment.Strea 
mExecutionEnvironment ; 

import org.apache.Flink.streaming.connectors.redis.Redi 
sSink; 

import org.apache.Flink.streaming.connectors.redis.comm 
on.config.FlinkJedisPoolConfig; 

import org.apache.Flink.streaming.connectors.redis.comm 
on.mapper.RedisCommand; 

import org.apache.Flink.streaming.connectors.redis.comm 
on.mapper.RedisCommandDescription; 

import org.apache.Flink.streaming.connectors.redis.comm 
on.mapper.RedisMapper ; 


/** 
* Created by xuwei.tech 
*/ 


public class StreamingDemoToRedis { 


public static void main(String[] args) throws Excep 
tion{ 
StreamExecutionEnvironment env = StreamExecutio 
nEnvironment. getExecutionEnvironment() ; 


DataStreamSource<String> text = env.socketTextS 
tream("hadoop10e", 9000, "\n"); 


//lpsuh 1 words word 


// 对 数据 进行 组 装 ,把 String 转化 为 Tuple2<String,Stri 
ng> 
DataStream<Tuple2<String, String>> 1 wordsData 
= text.map(new MapFunction 
<String, Tuple2<String, String>>() { 
@Override 
public Tuple2<String, String> map(String va 
lue) throws Exception { 
return new Tuple2<>("1_ words", value); 
} 
}); 
// 创 建 Redis 的 配置 
FlinkJedisPoolConfig conf = new FlinkJedisPoolc 
onfig.Builder().setHost("hadoop110" ) .setPort (6379) .buil 


dQ); 


// 创 建 RedisSink 

RedisSink<Tuple2<String, String>> redisSink = n 
ew RedisSink<>(conf, new 
MyRedisMapper()); 


1_wordsData.addSink(redisSink) ; 


env.execute("StreamingDemoToRedis") ; 


} 


public static class MyRedisMapper implements RedisM 
apper<Tuple2<String, String>>{ 
// 表 示 从 接收 的 数据 中 获取 需要 操作 的 Redis Key 
@Override 
public String getKeyFromData(Tuple2<String, Str 
ing> data) { 
return data. f@; 


} 
// 表 示 从 接收 的 数据 中 获取 需要 操作 的 Redis Value 


@Override 


public String getValueFromData(Tuple2<String, S 
tring> data) { 
return data.f1; 


} 


@Override 
public RedisCommandDescription getCommandDescri 
ption() { 
return new RedisCommandDescription(RedisCom 
mand.LPUSH) ; 


} 


} 





Scala 代 码 实 现 如 下 。 





package xuwei.tech.streaming.sink 


import org.apache.Flink.api.java.utils.ParameterTool 
import org.apache.Flink.streaming.api.scala.StreamExecu 
tionEnvironment 

import org.apache.Flink.streaming.api.windowing.time.Ti 
me 

import org.apache.Flink.streaming.connectors.redis.Redi 
sSink 

import org.apache.Flink.streaming.connectors.redis.comm 
on.config.FlinkJedisPoolConfig 

import org.apache.Flink.streaming.connectors.redis.comm 
on.mapper.{RedisCommand, 

RedisCommandDescription, RedisMapper} 


[IF 


* 


* Created by xuwei.tech 
my 
object StreamingDataToRedisScala { 


def main(args: Array[String]): Unit = { 


// 获 取 Socket 端 口号 
val port = 9000 





// 获 取 运 行 环境 
val env: StreamExecutionEnvironment = StreamExecuti 
onEnvironment. getExecutionEnvironment 


// 链 接 Socket 获 取 输 入 数据 
val text = env.socketTextSstream("hadoop166" ,port,'"\ 


n') 


// 注 意 : 必须 要 添加 这 一 行 隐 式 转行 
import org.apache.Flink.api.scala._ 


val 1_wordsData = text.map(line=>("1_words_scala",1 
ine) ) 


val conf = new FlinkJedisPoolConfig.Builder().setHo 
st("hadoop110") .setPort(6379) .build() 


val redisSink = new RedisSink[Tuple2[String, String ] 
](conf,new MyRedisMapper) 


1_wordsData. addSink(redisSink) 


// 执 行 任务 


env.execute("Socket window count") ; 


class MyRedisMapper extends RedisMapper|[Tuple2[String 


,» String] ]{ 
override def getKeyFromData(data: (String, String) ) 
=A 
data._1 
} 
override def getValueFromData(data: (String, String 
= 4 
data. 2 
} 


override def getCommandDescription = { 
new RedisCommandDescription(RedisCommand.LPUSH) 





4.3 Flink DataSet 的 常用 API 分 析 


DataSet API 主 要 可 以 分 为 3 块 来 分 析 : 


DataSource、Transformation 和 Sink。 


。DataSource 是 程序 的 数据 源 输入 。 

。Transformation 是 具体 的 操作 ， 它 对 一 个 或 多 个 
输入 数据 源 进行 计算 处 理 ， 比 如 Map、 
FlatMap、Filter 等 操作 。 





。 Sink 是 程序 的 输出 ， 它 可 以 把 Transformation 处 
理 之 后 的 数据 输出 到 指定 的 存储 介质 中 。 


4.3.1 DataSource 


对 DataSet 批 处 理 而 言 ， 较 频 党 的 操作 是 读 取 
HDFS 中 的 文件 数据 ， 因 此 这 里 主要 介绍 两 个 
DataSource 组 件 。 


1. 基于 集合 





fromCollection(Collection)， 主 要 是 为 了 方便 测 
试 使 用 。 
2. FEF ICE 

readTextFile(path)， 基 于 HDFS 中 的 数据 进行 计 
算 分 析 。 


4.3.2 Transformation 





Flink 针 对 DataSet 提 供 了 大 量 的 已 经 实现 的 算 
are 


Map: 输入 一 个 元 素 ， 然 后 返回 一 个 元 素 ， 中 间 
可 以 进行 清洗 转换 等 操作 。 

FlatMap: 输入 一 个 元 素 ， 可 以 返回 零 个 、 一 个 
MS TIGR o 

MapPartition: 类 似 Map， 一 次 处 理 一 个 分 区 的 
数据 《〈 如 果 在 进行 Map 处 理 的 时 候 需 要 获取 第 三 
资源 连接 ， 建 议 使 用 MapPartition ) 。 

Filter: 过 滤 函 数 ， 对 传 入 的 数据 进行 判断 ， 符 
合 条 件 的 数据 会 被 留 下 。 

Reduce: 对 数据 进行 聚合 操作 ， 结 合 当 前 元 取 
和 上 一 次 Reduce 返 回 的 值 进行 聚合 操作 ， 然 后 
返回 一 个 新 的 值 。 

Aggregations: Sum、max、min 等 。 

Distinct: 返回 一 个 数据 集中 去 重 之 后 的 元 素 。 
Join: 内 连接 。 

OuterJoin: 外 链接 。 

Cross: 获取 两 个 数据 集 的 华 卡 尔 积 。 




















e Union: 返回 两 个 数据 集 的 上 总和， 数据 类 型 需要 
一 致 。 

e First-n: 获取 集合 中 的 前 NN 个 元 素 。 

。 Sort Partition: 在 本 地 对 数据 集 的 所 有 分 区 进行 
排序 ， 通 过 sortPartition() 的 链接 调用 来 完成 对 多 
个 字段 的 排序 。 








Flink 针 对 DataSet 提 供 了 一 些 数据 分 区 规则 ， 
ABU FE 
e Rebalance: 对 数据 集 进 行 再 平衡 、 重 分 区 以 及 
TH RATER BRE o 
e Hash-Partition: 根据 指定 Key 的 散 列 值 对 数据 集 
进行 分 区 。 


partitionByHash() 


e Range-Partition: 根据 指定 的 Key 对 数据 集 进行 
范围 分 区 。 


.partitionByRange() 


e Custom Partitioning: 自 定 义 分 区 规则 ， 目 定义 
分 区 需要 实现 Partitioner 接 口 。 


或 者 
目 定 义 分 区 的 实现 参考 4.2.3 和 中 的 代码 。 


4.3.3 Sink 





Flink 针 对 DataSet 提 供 了 大 量 的 已 经 实现 的 
Sink. 





e writeAsText(): 将 元 系 以 字符 串 形 式 逐 行 写 入 ， 
这 些 字 符 串 通过 调用 每 个 元 系 的 toString(0) 方 法 
来 获取 。 

e writeAsCsv(): 将 元 组 以 逗号 分 隅 写 入 文件 中 ， 
行 及 字段 之 间 的 分 隔 是 可 配置 的 ， 每 个 字段 的 
值 来 自 对 象 的 toString0) 方 法 。 








e print): FREAR toString AME Blt 
准 输出 或 者 标准 错误 输出 流 中 。 

4.4 Flink Table API 和 SQL 的 分 析 及 使 

用 


Flink 针 对 标准 的 流 处 理 和 批 处 理 提供 了 两 种 关 
系 型 API: Table API 和 SQL。Table API 人 允许 用 户 以 
一 种 很 直观 的 方式 进行 Select、 人 ter 和 join 操 作 ; 

Flink SQL 支 持 基 于 Apache Calcite 实 现 的 标准 
SQL。 针 对 批 处 理 和 流 处 理 可 以 提供 相同 的 处 理 语 
MM ZG 

Flink Table API、SQL 接 口 和 Flink 的 DataStream 


API, DataSet API 是 紧密 联系 在 一 起 的 。 


Table API 和 SQL 是 关系 型 API， 用 户 可 以 像 操 
作 MySQL 数 据 库 表 一 样 来 操作 数据 ， 而 不 逢 要 通过 
编写 Java 代 码 来 完成 Flink Function， 更 不 需要 手工 





为 Java 代 码 调 优 。 另 外 ，SQL 作 为 一 个 非 程序 员 可 
操作 的 语言 ， 学 习 成 本 很 低 ， 如 果 一 个 系统 提供 
SQL 支 持 ， 将 很 容易 被 用 户 接 受 。 








注意 : Table API 和 SQL 目 前 正在 积极 开 
发 中 ， 有 一 些 功能 目前 还 是 不 文 持 的 。 








Flink 的 Table API 和 SQL 是 捆绑 在 Flink-Table 依 
赖 中 的 ， 因 此 如 果 项 目 中 想 要 使 用 Table API 和 
SQL， 就 必须 要 添加 下 面 依赖 。 





<dependency> 
<groupId>org.apache. flink</groupId> 
<artifactId>flink-table 2.11</artifactId> 
<version>1.6.1</version> 


</dependency> 





注意 : 针对 Flink 的 Scala 操 作 ， 还 需要 添 


加 对 应 的 依赖 。 其 中 ， 针 对 Scala 的 批 处 理 操 
作 要 添加 如 下 依赖 。 


<dependency> 


<groupId>org.apache. flink</groupId> 
<artifactId>flink-scala_2.11</artifactId> 
<version>1.6.1</version> 

</dependency> 





4b XT Scala yi Mee RRE, USING RR. 


<dependency> 
<groupId>org.apache. flink</groupId> 
<artifactId>flink-streaming-scala_2.11</artifactId> 
<version>1.6.1</version> 


</dependency> 








TER: AS E AL AYR as LT 
Was BWM, ‘EDT AS EWCIEFlink-tableix + 
JAR 包 和 业务 代码 打包 在 一 块 ， 而 推荐 把 
Flink-Table 的 依赖 复制 到 Flink 的 Lib 目 录 下 。 





Table API 和 SQL 通过 join API 集 成 在 一 起 ， 
个 join API 的 核心 概念 是 Table， ede 询 
的 输入 和 输出 。 下 面 来 分 析 使 用 Table API 和 SQL 得 
询 程序 的 通用 结构 、 如 何 注 册 Table、 如 何 玛 询 
Table 以 及 如 何 将 数据 发 给 Table。 


4.4.1 Table API 和 SQL 的 基本 使 用 


想 使 用 Table API 和 SQL， 首 先 要 创建 一 个 


TableEnvironment。TableEnvironment 对 象 是 Table 
API 和 SQL 集成 的 核心 ， 通 过 TableEnvironment 可 以 
实现 以 下 功能 


。 通 过 内 部 目录 创建 表 。 

。 通 过 外 部 目录 创建 表 。 

。 执行 SQL 查询。 

。 注 册 一 个 用 户 自 定义 的 Function。 

。 把 DataStream 或 者 DataSet 转 换 成 Table。 


e #4 ExecutionEnvironment# 7 


StreamExecutionEnvironment 的 引用 。 


一 个 得 询 中 只 能 绑 定 一 个 指定 的 
TableEnvironment，TableEnvironment 可 以 通过 Table 
Environment.getTableEnvironment()#%4 TableConfig 
来 生成 。TableConfig 可 以 用 来 配置 
TableEnvironment 或 者 自 定义 查询 优化 。 





如 何 创建 一 个 TableEnvironment 对 象 ? 具体 实 
现代 码 如 下 。 


Java 代 人 码 实现 如 下 。 





// 流 数据 查询 

StreamExecutionEnvironment sEnv = StreamExecutionEnviro 
nment .getExecutionEnvironment(); 

StreamTableEnvironment sTableEnv = TableEnvironment.get 
TableEnvironment(sEnv) ; 


// 批 数据 查询 

ExecutionEnvironment bEnv = ExecutionEnvironment.getExe 
cutionEnvironment() ; 

BatchTableEnvironment bTableEnv = TableEnvironment.getT 


Scala 代 码 实 现 如 下 。 


// 流 数据 查询 

val sEnv = StreamExecutionEnvironment.getExecutionEnvir 
onment 

val sTableEnv = TableEnvironment.getTableEnvironment(sE 


nv) 

// 批 数据 查询 

val bEnv = ExecutionEnvironment.getExecutionEnvironment 
val bTableEnv = TableEnvironment.getTableEnvironment(bE 
nv) 





通过 获取 到 的 TableEnvironment 对 象 可 以 创建 
Table 对 象 ， 有 两 种 类 型 的 Table 对 象 : 输入 
Table(Input Table) 和 输出 Table(Output Table)。 输 入 
Table 可 以 给 Table API 和 SQL 提供 得 询 数据 ， 输 出 
Table 可 以 把 Table API 和 SQL 的 查询 结果 发 送 到 外 
部 存储 介质 中 。 


输入 Table 可 以 通过 多 种 数据 源 注 册 。 


。 己 存在 的 Table 对 象 : 通常 是 Table API 和 SQL 的 


查询 结 
e TableSource: 通过 它 可 以 访问 外 部 数据 ， 比 如 
文件 、 数 据 库 和 消 因 队列 。 


e DataStream# DataSet. 


输出 Table 需 要 使 用 TableSink 注 册 。 


下 面 演示 如 何 通 过 TableSource 注 册 一 个 
Table. 


Java 代 人 码 实 现 如 下 。 


StreamExecutionEnvironment env = StreamExecutionEnviron 
ment.getExecutionEnvironment() ; 

StreamTableEnvironment tableEnv = TableEnvironment.getT 
ableEnvironment(env) ; 

// 创 建 一 个 TableSource 


TableSource csvSource = new CsvTableSource("/path/to/fi 
由 

// 注 册 一 个 TableSource， 称 为 CvsTable 
tableEnv.registerTableSource("CsvTable", csvSource) ; 





Scala 代 码 实 现 如 下 。 


val env = StreamExecutionEnvironment.getExecutionEnviro 


nment 

val tableEnv = TableEnvironment.getTableEnvironment (env 
) 

// 创 建 一 个 TableSource 

val csvSource: TableSource = new CsvTableSource("/path/ 
to/file", ...) 

// 注 册 一 个 TableSource， 称 为 CvsTable 
tableEnv.registerTableSource("CsvTable", csvSource) 





接 下 来 演示 如 何 通过 TableSink 把 数据 写 到 外 部 
存储 介质 中 。 


Java 代 人 码 实 现 如 下 。 


StreamExecutionEnvironment env = StreamExecutionEnviron 
ment.getExecutionEnvironment() ; 

StreamTableEnvironment tableEnv = TableEnvironment.getT 
ableEnvironment(env) ; 

// 创 建 一 个 TableSink 

TableSink csvSink = new CsvTableSink("/path/to/file", 


..)3 

// 定 义 字段 名 称 和 类 型 

String[ ] fieldNames = {"a", "b", "c"}; 
TypeInformation[ ] fieldTypes = {Types.INT, Types.STRING 
» Types.LONG}; 

// 注 册 一 个 Tablesink， 称 为 CsvsinkTable 
tableEnv.registerTableSink("CsvSinkTable", fieldNames, 
fieldTypes, csvSink); 





Scala 代 码 实 现 如 下 。 


val env = StreamExecutionEnvironment.getExecutionEnviro 
nment 
val tableEnv = TableEnvironment.getTableEnvironment (env 


) 
// 创 建 一 个 TableSink 
val csvSink: TableSink = new CsvTableSink("/path/to/fil 


-) 
// 定 义 字段 名 称 和 类 型 
val fieldNames: Array[String] = Array("a", "b", "c") 
val fieldTypes: Array( Typetnformation| cT]. = Array(Types 
.INT, Types.STRING, Types.LONG) 
// 注 册 一 个 TableSsink， 称 为 CsvSsinkTable 
tableEnv.registerTableSink("CsvSinkTable", fieldNames, 
fieldTypes, csvSink) 





我 们 知道 了 如 何 通 过 TableSource 读 取 数 据 和 通 
过 TableSink 写 出 数据 ， 下 面 介绍 如 何 查 询 Table 中 
的 数据 。 


1. 使 用 Table API 


Java 代 人 码 实 现 如 下 。 





StreamExecutionEnvironment env = StreamExecutionEnviron 


ment.getExecutionEnvironment() ; 

StreamTableEnvironment tableEnv = TableEnvironment.getT 
ableEnvironment(env) ; 

// 注 册 一 个 Oorders 表 


// 通 过 scan 操 作 获取 到 一 个 Table 对 象 

Table orders = tableEnv.scan("Orders") ; 

// 计 算 所 有 来 自 法 国 的 收入 

Table revenue = orders 
.filter("cCountry === 'FRANCE'") 
.groupBy("cID, cName") 
.select("cID, cName, revenue.sum AS revSum") ; 





Scala 代 码 实 现 如 下 。 


val env = StreamExecutionEnvironment.getExecutionEnviro 
nment 
val tableEnv = TableEnvironment.getTableEnvironment (env 


) 
// 注 册 一 个 Orders 表 


// 通 过 scan 操 作 获 取 到 一 个 Table 对 象 


val orders = tableEnv.scan("Orders") 
// 计 算 所 有 来 自 法 国 的 收入 
val revenue = orders 
.filter('cCountry === "FRANCE") 
.groupBy('cID, 'cName) 
.Select('cID, 'cName, 'revenue.sum AS 'revSum) 





2. 使 用 SQL 


Java 代 人 码 实 现 如 下 。 


StreamExecutionEnvironment env = StreamExecutionEnviron 


ment.getExecutionEnvironment() ; 

StreamTableEnvironment tableEnv = TableEnvironment.getT 
ableEnvironment(env) ; 

// 注 册 一 个 Oorders 表 


// 计 算 所 有 来 自 法 国 的 收入 
Table revenue = tableEnv.sqlQuery( 
"SELECT cID, cName, SUM(revenue) AS revSum " + 
“FROM Orders " + 
"WHERE cCountry = ‘FRANCE' " + 
"GROUP BY cID, cName" 





Scala 代 码 实 现 如 下 。 


val env = StreamExecutionEnvironment.getExecutionEnviro 
nment 

val tableEnv = TableEnvironment.getTableEnvironment (env 
) 
// 注 册 一 个 Orders 表 


/7 计算 所 有 来 自 法 国 的 收入 


val revenue = tableEnv.sqlQuery(""" 


|SELECT cID, cName, SUM(revenue) AS revSum 
|FROM Orders 

|WHERE cCountry = 'FRANCE' 

|GROUP BY cID, cName 


.stripMargin) 





一 


注意 : Table API 和 SQL 查询 很 容易 融合 





在 一 起 ， 因 为 它们 都 返回 Table 对 象 。 





e Table API 查 询 可 以 基于 SQL 查询 结果 的 Table 来 
进行 

。SQL 查 #401 DISEF Table API 查 询 的 结果 来 定 
ea 





4.4.2 ”DataStream、DataSet 和 Table 之 闻 的 转换 


Table API 和 SQL 查询 可 四 
DataStream、DataSet 程 序 集成 到 一 起 。 通 过 一 个 
TableEnvironment， 可 以 把 DataStream 或 者 DataSet 
注册 ane 这 样 就 可 以 使 用 Table API 和 SQL 查 
询 了 。 通 过 TableEnvironment 也 可 以 把 Table 对 象 转 
Ca 这 样 束 能 够 使 用 
DataStream 或 者 DataSet 中 的 相关 APIJ 。 


1. 把 DataSstream 或 者 DataSet 注 册 为 Table 对 象 


C1) 通过 注册 的 形式 实现 。 


Java 代 人 码 实 现 如 下 。 


StreamExecutionEnvironment env = StreamExecutionEnviron 
ment.getExecutionEnvironment() ; 

StreamTableEnvironment tableEnv = TableEnvironment.getT 
ableEnvironment(env) ; 

// 获 取 DataStream 


DataStream<Tuple2<Long, String>> stream = .. 

// 把 Datastream 注 册 为 Table， 称 为 myTable， 表 中 的 字段 为 f@， f1 
tableEnv.registerDataStream("myTable", stream); 

// 在 注册 Table 的 时 候 也 可 以 手工 指定 字段 的 名 称 
tableEnv.registerDataStream("myTable2", stream, "myLong 
» myString"); 





Scala 代 码 实 现 如 下 。 





val env = StreamExecutionEnvironment.getExecutionEnviro 
nment 


val tableEnv = TableEnvironment.getTableEnvironment (env 
) 

// 获 取 DataStream 

val stream: a A a String)] = 

// 把 Datastream 注 册 为 Table， 称 为 myTable， 表 中 的 字段 为 fe， f1 
tableEnv.registerDataStream("myTable", stream) 


// 在 注册 Table 的 时 候 也 可 以 手工 指定 字段 的 名 称 

import org.apache.flink.table.api.scala._ 
tableEnv.registerDataStream("myTable2", stream, 'myLong 
» ‘myString) 





注意 : DataStream 程 序 的 表 名 不 能 满足 规 
则 A 人 _DataStreamTable [0-9]+，DataSet 程 序 的 
表 名 不 能 满足 规则 ^_DataSetTable_[0-9]+， 这 
些 规 则 的 名 字 是 内 部 使 用 的 。 


(2) 通过 直接 转化 的 形式 实现 。 


Java 代 码 实现 如 下 。 


StreamExecutionEnvironment env = StreamExecutionEnviron 
ment.getExecutionEnvironment() ; 

StreamTableEnvironment tableEnv = TableEnvironment.getT 
ableEnvironment(env) ; 

// 获 取 DataStream 

DataStream<Tuple2<Long, String>> stream = .. 


// 把 DataSstream 转 化 为 Table， 使 用 默认 的 字段 名 称 f6 ,fl1 

Table table1 = tableEnv.fromDataStream(stream) ; 

// 把 Datastream 转 化 为 Table， 使 用 指定 的 字段 名 称 "myLong"， "my 

String" 

Table table2 = tableEnv.fromDataStream(stream, "myLong, 
myString") ; 





Scala 代 码 实 现 如 下 。 


val env = StreamExecutionEnvironment.getExecutionEnviro 
nment 
val tableEnv = TableEnvironment.getTableEnvironment (env 


) 

// 获 取 DataStream 

val stream: DataStream[(Long, String)] = i 

// 把 Datastream 转 化 为 Table， 使 用 默认 的 字段 名 称 _1 ek 


val table1: Table = tableEnv.fromDataStream(stream) 





// 把 Datastream 转 化 为 Table， 使 用 指定 的 字段 名 称 "myLong， 'myS 
tring 

import org.apache.flink.table.api.scala._ 

val table2: Table = tableEnv.fromDataStream(stream, my 
Long, ‘myString) 





2. 把 Table 对 象 转换 为 DataStream 或 者 DataSet 


当 我 们 想 把 一 个 Table 对 象 转换 为 DataStream 或 
者 DataSet 的 时 候 ， 需 要 指定 DataStream 或 者 
DataSet 中 数据 的 类 型 。 通 单 较 方 便 的 转换 类 型 是 
行 ， 如 下 都 是 文 持 的 数据 类 型 。 


e Row: 通过 角 标 映射 字段 ， 文 持 任 意 数 量 的 字 
段 ， 并 且 支 持 null 值 和 非 类 型 安全 的 访问 。 


e POJO: Java 中 的 实体 类 ， 这 个 实体 关中 的 字段 
名 称 需 要 和 Table 中 的 字段 名 称 保持 一 致 ， 文 持 
任意 数量 的 字段 ， 文 持 null 值 ， 类 型 安全 的 访 
问 。 

e Case Class: 通过 角 标 映射 字段 ， 不 文 持 null 
值 ， 类 型 安全 的 访问 

e Tuple: 通过 角 标 映射 字段 ，Scala 中 限制 22 个 字 
段 ，Java 中 限制 25 个 字段 ， 不 文 持 null 值 ， 类 型 
安全 的 访问 。 

e Atomic Type: Table 必 须要 有 一 个 字段 ， 不 文 持 
null 值 ， 类 型 安全 的 访问 。 


(1) 把 Table 转 化 为 DataStream 。 


流 式 玛 询 的 结 有 末 Table 会 家 动态 地 更 新 ， 即 每 
个 新 的 记录 到 达 输 入 流 时 结果 就 会 发 生变 化 。 
此 ， 转 换 此 动态 查询 的 DataStream 需 要 对 表 的 更 新 
进行 编码 。 


有 几 种 模式 可 以 将 Table 转 换 为 DataStream。 


e Append Mode: 这 种 模式 只 适用 于 当 动 态 表 仪 由 
INSERTE MIET XMOD ， 之 前 添加 的 数 
据 不 会 被 更 新 。 

e Retract Mode: 可 以 始终 使 用 此 模式 ， 它 使 用 一 
个 Boolean 标 识 来 编码 INSERT 和 DELETE 更 改 。 


Java 代 人 码 实 现 如 下 。 





StreamExecutionEnvironment env = StreamExecutionEnviron 


ment.getExecutionEnvironment() ; 
StreamTableEnvironment tableEnv = TableEnvironment.getT 
ableEnvironment(env) ; 
//Table 中 有 两 个 字段 (String name, Integer age) 
Table table = ... 
// 把 Table 中 的 数据 转 成 Datastream<Row> 
DataStream<Row> dsRow = tableEnv.toAppendStream(table, 
Row.class); 
// 或 者 把 Table 中 的 数据 转 成 Datastream<Tuple2> 
TupleTypeInfo<Tuple2<String, Integer>> tupleType = new 
TupleTypeInfo<>( 

Types.STRING(), 

Types.INT()); 
DataStream<Tuple2<String, Integer>> dsTuple = tableEnv. 
toAppendStream(table, tupleType) ; 
// 将 Table 转 化 成 Retract 形 式 的 DataStream<Row> 
// 一 个 Retract Stream 的 类 型 X 为 DataSstream<Tuple2<Boolean， 
X>> 
//Boolean 字 段 指定 了 更 改 的 类 型 
//true 表 示 INSERT，false 表 示 DELETE 
DataStream<Tuple2<Boolean, Row>> retractStream = tableE 


Scala 代 人 码 实 现 如 下 。 


val env = StreamExecutionEnvironment.getExecutionEnviro 
nment 
val tableEnv = TableEnvironment.getTableEnvironment (env 


//Table 中 有 两 个 字段 (String name, Integer age) 
val table: Table = ... 
// 把 Table 中 的 数据 转 成 Datastream<Row> 


val dsRow: DataStream[Row] = tableEnv.toAppendStream|[ Ro 
w] (table) 

// 或 者 把 Table 中 的 数据 转 成 Datastream<Tuple2> 

val dsTuple: DataStream[ (String, Int)] dsTuple = tableE 
nv.toAppendStream[ (String, Int)](table) 

val retractStream: DataStream[ (Boolean, Row)] = tableEn 
v.toRetractStream[ Row] (table) 





(2) 把 Table 转 化 为 DataSet。 


Java 代 人 码 实 现 如 下 。 





ExecutionEnvironment env = ExecutionEnvironment.getExec 
utionEnvironment() ; 

BatchTableEnvironment tableEnv = TableEnvironment.getTa 
bleEnvironment (env) ; 

//Table 中 有 两 个 字段 (String name, Integer age) 

Table table = ... 

// 把 Table 中 的 数据 转 成 DataSet<Row> 


DataSet<Row> dsRow = tableEnv.toDataSet(table, Row.clas 
s); 
// 或 者 把 Table 中 的 数据 转 成 DataSet<Tuple2> 
TupleTypeInfo<Tuple2<String, Integer>> tupleType = new 
TupleTypeInfox<>( 

Types.STRING(), 

Types. INT()); 
DataSet<Tuple2<String, Integer>> dsTuple = tableEnv.toD 
ataSet(table, tupleType) ; 





Scala 代 码 实 现 如 下 。 


val env = StreamExecutionEnvironment.getExecutionEnviro 
nment 
val tableEnv = TableEnvironment.getTableEnvironment (env 


//Table 中 有 两 个 字段 (String name, Integer age) 

val table: Table =... 

// 把 Table 中 的 数据 转 成 DataSet<Row> 

val dsRow: DataSet[Row] = tableEnv.toDataSet[Row](table 


) 

// 或 者 把 Table 中 的 数据 转 成 DataSet<Tuple2> 

val dsTuple: DataSet[(String, Int)] = tableEnv.toDataSe 
t[ (String, Int) ](table) 





4.4.3 Table API 和 SQL 的 案例 


1. 其 于 Flink Table API 的 案例 





注意 : 在 这 里 使 用 CsvTableSource， 把 结 
果 直 接 打 印 到 控制 台 。 








需求 : 读 取 CSV 文 件 中 的 内 容 ， 打 印 到 控制 台 


CSV 文 件 内 容 如 下 。 
ZS,15 

ww,18 

ls,20 


Java 代 码 实 现 如 下 。 





import org.apache.flink.api.common.typeinfo.TypeInforma 
tion; 

import org.apache.flink.api.common.typeinfo. Types; 
import org.apache.flink.streaming.api.datastream.DataSt 


ream; 
import org.apache.flink.streaming.api.environment.Strea 
mExecutionEnvironment ; 

import org.apache.flink.table.api.Table; 

import org.apache.flink.table.api.TableEnvironment ; 
import org.apache.flink.table.api.java.StreamTableEnvir 
onment ; 

import org.apache.flink.table.sources.CsvTableSource; 
import org.apache.flink.table.sources.TableSource; 


/** 
* Created by xuwei.tech. 
"7 
public class TableAPITest { 
public static void main(String[] args)throws Except 
ion { 
StreamExecutionEnvironment env = StreamExecutio 
nEnvironment.getExecutionEnvironment(); 
StreamTableEnvironment tableEnv = TableEnvironm 
ent.getTableEnvironment(env); 
// 创 建 一 个 TableSource 
TableSource csvSource = new CsvTableSource("D:\ 

\abc.csv",new String[ ]{"name", 

"age"},new TypeInformation[ ]{Types.STRING, Types.INT}); 
// 注 册 一 个 TableSource， 称 为 CvsTable 
tableEnv.registerTableSource("CsvTable", csvSou 

rce); 


Table csvTable = tableEnv.scan("CsvTable"); 
Table csvResult = csvTable.select("name,age"); 
DataStream<Student> csvStream = tableEnv.toAppe 
ndStream(csvResult, Student.class); 
csvStream.print().setParallelism(1); 


// 执 行 任务 


env.execute("csvStream") ; 


} 


public static class Student { 
public String name; 
public int age; 


public Student() {} 


public Student(String name, int age) { 
this.name = name; 
this.age = age; 


} 


@Override 
public String toString() { 
return "name:" + name + ",age:" + age; 


} 





代码 执行 结果 如 下 。 


name:ls,age:20 
name:zs,age:15 
name: ww,age:18 





Scala 代 码 实 现 如 下 。 





import org.apache.flink.api.common.typeinfo.TypeInforma 
tion 


import org.apache.flink.api.scala.typeutils. Types 
import org.apache.flink.streaming.api.scala.StreamExecu 
tionEnvironment 

import org.apache.flink.table.api.TableEnvironment 
import org.apache.flink.table.sources.CsvTableSource 


/** 
* Created by xuwei.tech. 
*/ 

object TableTestScala { 


def main(args: Array[String]): Unit = { 
val sEnv = StreamExecutionEnvironment.getExecutionE 
nvironment 
val sTableEnv = TableEnvironment.getTableEnvironmen 
t(sEnv) 
// 隐 式 转换 


import org.apache.flink.api.scala._ 


// 创 建 一 个 TableSource 

val csvSource = new CsvTableSource("D:\\abc.csv", A 
rray[String]("name", "age"), 
Array[TypeInformation[_]](Types.STRING, Types.INT)) 

// 注 册 一 个 TableSource， 称 为 CvsTable 

sTableEnv.registerTableSource("CsvTable", csvSource 


) 

val csvTable = sTableEnv.scan("CsvTable") 

val csvResult = csvTable.select("name, age" ) 

val csvStream = sTableEnv.toAppendStream[ Student ] (< 
svResult) 

csvStream.print.setParallelism(1) 

// 执 行 任务 


sEnv.execute("csvStream" ) 


} 


case class Student(name: String,age: Int) 





代码 执行 结果 如 下 。 


Student(zs,15) 
Student(1s,208) 
Student (ww,18) 


2. 基于 Flink SQL 的 案例 





需求 : 读 取 student.txt 文 件 中 的 单词 并 对 其 进行 
统计 ， 计 算 每 个 单词 出 现 的 总 次 数 ， 并 把 结果 写 入 
到 result,csv 文 件 中 。 





student.txt 文 件 内 容 如 下 。 
ZS,18 


Is,20 


ww, 20 


Java 代 人 码 实 现 如 下 。 





import org.apache.flink.api.common.functions.MapFunctio 


import org.apache.flink.api.common.typeinfo. TypeInforma 


import org.apache.flink.api.common.typeinfo. Types; 
import org.apache.flink.api.java.DataSet; 

import org.apache.flink.api.java.ExecutionEnvironment ; 
import org.apache.flink.api.java.operators.DataSource; 
import org.apache.flink.core.fs.FileSystem; 

import org.apache.flink.table.api.Table; 

import org.apache.flink.table.api.TableEnvironment ; 
import org.apache.flink.table.api.java.BatchTableEnviro 


import org.apache.flink.table.sinks.CsvTableSink; 


JEX 
* Created by xuwei.tech. 
ay A 

public class SQLTest { 


public static void main(String[] args) throws Excep 
tion{ 
ExecutionEnvironment bEnv = ExecutionEnvironmen 
t.getExecutionEnvironment() ; 
BatchTableEnvironment bTableEnv = TableEnvironm 
ent. getTableEnvironment(bEnv) ; 


DataSource<String> dataSource = bEnv.readTextFi 
le("D:\\student.txt"); 


DataSet<Student> inputData = dataSource.map(new 
MapFunction<String, Student>() { 
@Override 
public Student map(String value) throws Exc 


eption { 
String[] splits = value.split(","); 
return new Student(splits[@], Integer.p 
arseInt(splits[1])); 
} 
}); 


// 将 DataSet 转 换 为 Table 

Table table = bTableEnv.fromDataSet(inputData) ; 
// 注 册 student 表 
bTableEnv.registerTable("student",table) ; 


// 执 行 Sq1 查 询 
Table sqlQuery = bTableEnv.sqlQuery(" select cou 
nt(1),avg(age) from student"); 


// 创 建 CsvTableSsink 

CsvTableSink csvTableSink = new CsvTableSink("D 
>\\result.csv", ",", 1, FileSystem. 
WriteMode.OVERWRITE) ; 


// 注 册 Tablesink 

bTableEnv.registerTableSink("csvOutputTable",ne 
w String[ ]{"count", "avg age"},new TypeInformation|[ ]{Typ 
es.LONG, Types. INT}, csvTableSink) ; 


// 把 结果 数据 添加 到 CsvTablesink 中 
sqlQuery.insertInto("csvOutputTable" ) ; 


bEnv.execute("SQL-Batch") ; 


// 源 数据 

public static class Student { 
public String name; 
public int age; 


public Student() {} 


public Student(String name, int age) { 
this.name = name; 
this.age = age; 


} 


@Override 
public String toString() { 


return “name:" + name + ",age:" + age; 








代码 执行 结果 被 保存 在 result.csv 文 件 中 ， 内 容 
we 


3,22 


Scala 代 码 实 现 如 下 。 





import org.apache.flink.api.common.typeinfo. TypeInforma 
tion 

import org.apache.flink.api.scala.ExecutionEnvironment 
import org.apache.flink.api.scala.typeutils.Types 


import org.apache.flink.core.fs.FileSystem 
import org.apache.flink.table.api.TableEnvironment 
import org.apache.flink.table.sinks.CsvTableSink 


/** 
* Created by xuwei.tech. 
£7 

object SQLTestScala { 


def main(args: Array[String]): Unit = { 
val bEnv = ExecutionEnvironment.getExecutionEnviron 
ment 
val bTableEnv = TableEnvironment.getTableEnvironmen 
t(bEnv) 


// 隐 式 转换 


import org.apache.flink.api.scala._ 
val dataSource = bEnv.readTextFile("D:\\student.txt 


val inputData = dataSource.map(line=>{ 
val splits = line.split(",") 
val stu = new Student(splits(@),splits(1).toInt) 
stu 
}) 
// 将 DataSet 转 换 为 Table 
val table = bTableEnv.fromDataSet(inputData) 
// 注 册 student 表 
bTableEnv.registerTable("student", table) 
// 执 行 SQL 查询 
val sqlQuery = bTableEnv.sqlQuery("select count(1), 
avg(age) from student") 
// 创 建 CsvTablesink 
val csvTableSink = new CsvTableSink("D:\\result.csv 
my ",", 1, FileSystem.WriteMode.OVERWRITE ) 
// 注 册 Tablesink 


bTableEnv.registerTableSink("csvOutputTable", Array 
[String ]("count", 


“avg age"), Array[TypeInformation[_]](Types.LONG, Types 
.INT), csvTableSink ) 
// 把 结果 数据 添加 到 CsvTablesink 中 
sqlQuery.insertInto("csvOutputTable" ) 
bEnv.execute("SQL-Batch" ) 


} 


case class Student(name: String,age: Int) 








代码 执行 结果 被 保存 在 result.csv 文 件 中 ， 内 容 
ae 


3,22 
4.5 Flink 文 持 的 DataType 分 析 
Flink 支 持 Java 和 和 Scala 中 的 大 部 分 数据 类 型 。 


e Java Tuple 科 Scala Case Class. 
e Java POJO: Java 实 体 类 。 


e Primitive Type: 默认 文 持 Java 和 Scala 基 本 数据 


类 型 。 


e General Class Type: 默认 文 持 大 多 数 Java 和 Scala 
Class. 

e Hadoop Writable: 支持 Hadoop 中 实现 了 
org.apache.Hadoop.Writable 的 数据 类 型 。 

e Special Type: 比如 Scala 中 的 Either Option 和 
Try. 


4.6 Flink 序 列 化 分 析 


Flink 自 带 了 针对 诸如 Int、Long 和 String 等 标准 
类 型 的 序列 化 器 。 


如 果 Flink 无 法 实现 序列 化 的 数据 类 型 ， 我 们 可 
以 交 给 Avro 和 Kryo。 


使 用 方法 如 下 。 


ExecutionEnvironment env = ExecutionEnvironment.getExec 
utionEnvironment () ; 


。 使 用 Avro 序列 化 : 
env.getConfig().enableForceAvro();. 

使 用 Kryo 订 列 化 : 
env.getConfig().enableForceKryo();. 

使 用 目 定 义 序列 化 : 
env.getConfig().addDefaultKryoSerializer(Class<? 


> type, Class<? extends Serializer<?>> 


serializerClass); o 


第 5 章 ”Flink 高 级 功能 的 使 用 
本 章 主 要 针对 Flink 中 的 高 级 特性 进行 分 机 ， 包 
括 Broadcast、Accumulator 和 Distributed Cache。 


5.1 Flink Broadcast 


在 讲 Broadcast 之 前 需要 区 分 一 下 DataStream 中 
的 Broadcast〈 分 区 规则 ) 和 Flink 中 的 Broadcast ( 广 
播 变 量 ) 功能 。 


1. DataStream Broadcast (分 区 规则 ) 





分 区 规则 是 把 元 素 广播 给 所 有 的 分 区 ， 数 据 会 
航 重 复 处 理 ， 类 似 于 Storm 中 的 allGrouping。 


DataStream.broadcast() 





2. Flink Broadcast (广播 变量 ) 





广播 变量 允许 编程 人 员 在 每 台 机 器 上 保持 一 个 
只 读 的 缓存 变量 ， 而 不 是 传送 变量 的 副本 给 Task。 
广播 变量 创建 后 ， 它 可 以 运行 在 集群 中 的 任何 
Function 上 ， 而 不 需要 多 次 传递 给 集群 节点 。 另 外 
请 记 住 ， 不 要 修改 广播 变量 ， 这 样 才能 确保 每 个 市 
点 获取 到 的 值 都 是 一 致 的 。 

















用 一 句 话 解释 ，Broadcast 可 以 理解 为 一 个 公共 
的 共享 变量 。 可 以 把 一 个 DataSet (数据 集 ) 广播 出 
去 ， 不 同 的 Task 在 市 点 上 都 能 够 获取 到 它 ， 这 个 数 
据 集 在 每 个 节点 上 只 会 存在 一 份 。 如 末 不 使 用 
Broadcast， 则 在 各 市 点 的 每 个 Task 中 都 需要 复制 一 
份 DataSet 数 据 集 ， 比 较 浪 费 内 存 〈 也 就 是 一 个 市 点 
中 可 能 会 存在 多 份 DataSet 数 据 ) 。 











Broadcast 的 使 用 步骤 如 下 。 


(1) 初始 化 数据 。 
(2) 广播 数据 。 


.withBroadcastSet(toBroadcast, "broadcastSetName"); 
(3) 获取 数据 。 


Collection<Integer>broadcastSet = getRuntimeContext().g 
etBroadcastVariable("broadcastSetName" ) ; 


在 使 用 Broadcast 的 时 候 需 要 注意 以 下 事项 。 








。 广播 变量 存在 于 每 个 市 把 的 内 存 中 ， 它 的 数据 
量 不 能 太 大 ， 因 为 广播 出 去 的 数据 和 常 驻 内 存 ， 
除非 程序 执行 结 

。 广播 变量 在 初始 化 广播 以 后 不 文 持 修改 ， 这 样 
才能 你 证 每 个 节点 的 数据 都 是 一 致 的 。 

。 如 朱 多 个 算 子 需要 使 用 同一 份 数据 集 ， 那 么 需 
要 在 对 应 的 多 个 算 子 后 面 分 别 注 册 广 播 变 量 。 

















。 厂 播 变量 只 能 在 Flink 批 处 理 程序 中 才 可 以 使 
用 。 


需求 : Flink 从 数据 源 中 获取 到 用 户 的 姓名 ， 最 
终 把 用 户 的 姓名 和 年 龄 信息 打印 出 来 。 





分 析 : 需要 在 中 间 的 Map 处 理 的 时 候 获 取 用 户 
的 年 龄 信息 ， 建 议 把 用 户 的 关系 数据 集 使 用 广播 变 
量 进 行 处 理 。 


注意 : 如 果 多 个 算 子 需要 使 用 同一 份 数 
据 集 ， 那 么 需要 在 对 应 的 多 个 算 子 后 面 分 别 注 
册 广 播 变量 。 














Java 代 码 实 现 如 下 。 





package xuwei.tech.batch.batchAPI; 


import org.apache.Flink.api.common. functions .MapFunctio 


n; 

import org.apache.Flink.api.common.functions.RichMapFun 
ction; 

import org.apache.Flink.api.java.DataSet; 

import org.apache.Flink.api.java.ExecutionEnvironment; 
import org.apache.Flink.api.java.operators.DataSource; 
import org.apache.Flink.api.java.tuple.Tuple2; 

import org.apache.Flink. configuration. Configuration; 


import java.util.ArrayList; 
import java.util.HashMap; 
import java.util.List; 


/** 
* Broadcast 广 播 变量 
* Created by xuwei.tech 
7 


public class BatchDemoBroadcast { 


public static void main(String[] args) throws Excep 
tion{ 





// 获 取 运 行 环境 
ExecutionEnvironment env = ExecutionEnvironment 
.getExecutionEnvironment() ; 


//1: 准备 需要 广播 的 数据 

ArrayList<Tuple2<String, Integer>> broadData = 
new ArrayList<>(); 

broadData.add(new Tuple2<>("zs",18)); 

broadData.add(new Tuple2<>("1s",20)); 

broadData.add(new Tuple2<>("ww",17)); 

DataSet<Tuple2<String, Integer>> tupleData = en 
v.fromCollection(broadData) ; 


// 处 理 需要 广播 的 数据 ， 把 数据 集 转 换 成 Map 类 型 ，map 中 





的 key 就 是 用 户 姓 名 ，value 就 是 用 户 年 龄 
DataSet<HashMap<String, Integer>> toBroadcast = 
tupleData.map(new MapFunction 
<Tuple2<String, Integer>, HashMap<String, Integer>>() { 
@Override 
public HashMap<String, Integer> map(Tuple2< 
String, Integer> value) throws Exception { 
HashMap<String, Integer> res = new Hash 
Map<>(); 
res.put(value.f@, value.f1); 
return res; 


} 
})3 
// 源 数据 
DataSource<String> data = env.fromElements("zs" 
» "Is", “ww"); 





// 注 意 : 在 这 里 使 用 RichMapFunction 获 取 广 播 变量 
DataSet<String> result = data.map(new RichMapFu 
nction<String, String>() { 


List<HashMap<String, Integer>> broadCastMap 
= new ArrayList<HashMap<String, 
Integer>>(); 

HashMap<String, Integer> allMap = new HashM 
ap<String, Integer>(); 


/** 
* APTIE RA SBT IK 
* 可 以 在 这 里 实现 一 些 初始 化 的 功能 
* 因此 可 以 在 open 方 法 中 获取 广播 变量 数据 
E 
@Override 
public void open(Configuration parameters) 
throws Exception { 





super.open(parameters) ; 
//2: 获取 广播 数据 
this.broadCastMap = getRuntimeContext() 
.getBroadcastVariable 
("broadCastMapName" ) ; 
for (HashMap map : broadCastMap) { 
allMap.putAll(map) ; 


} 
} 


@Override 
public String map(String value) throws Exce 
ption { 
Integer age = allMap.get(value); 


return value + "," + age; 


} 
}) .withBroadcastSet(toBroadcast, "broadCastMapN 


ame");//3: 执行 广播 数据 的 操作 


result.print(); 





Scala 代 码 实 现 如 下 。 





package xuwei.tech.batch.batchAPI 


import org.apache.Flink.api.common.functions.RichMapFun 
ction 

import org.apache.Flink.api.scala.ExecutionEnvironment 
import org.apache.Flink.configuration.Configuration 


import scala.collection.mutable.ListBuffer 


JEF 
* Broadcast 广 播 变量 
* Created by xuwei.tech 
ays 
object BatchDemoBroadcastScala { 


def main(args: Array[String]): Unit = { 


val env = ExecutionEnvironment. getExecutionEnvironm 
ent 


import org.apache.Flink.api.scala._ 


//1: 准备 需要 广播 的 数据 

val broadData = ListBuffer[Tuple2[String,Int]]() 
broadData.append(("zs",18)) 
broadData.append(("1s",20)) 
broadData.append(("ww",17)) 


// 处 理 需要 广播 的 数据 

val tupleData = env.fromCollection(broadData) 

val toBroadcastData = tupleData.map(tup=>{ 
Map(tup. 1->tup. 2) 

}) 


val text = env.fromElements("zs","1s", "ww" ) 


val result = text.map(new RichMapFunction[String, St 
ring] { 


var listData: java.util.List[Map[String,Int]] = n 
ull 

var allMap = Map[String,Int]() 

override def open(parameters: Configuration): Uni 


super .open(parameters) 
//2: 获 取 广 播 数 据 
this.listData = getRuntimeContext .getBroadcastV 
ariable[Map[String,Int]]("broadcastMapName") 
val it = listData.iterator() 
while (it.hasNext){ 
val next = it.next() 
allMap = allMap.++(next) 
} 
} 


override def map(value: String) = { 
val age = allMap.get(value).get 
value+","+age 
} 
}).withBroadcastSet(toBroadcastData,"broadcastMapNa 
me")//3: 执行 广播 数据 的 操作 


result.print() 





5.2 Flink Accumulator 


Accumulator! & Jas, +jMapReduce "F 
CounterH MHRA, FREE HW SS TaskE 


运行 期 间 的 数据 变化 。 可 以 在 Flink Job 的 算 子 函数 
中 使 用 累加 器 ， 但 是 只 有 在 任务 执行 结束 之 后 才能 

















BRAS Za MM tt RER o 





Counter — FR HY AA UAE SEL, aT AY 
Counter IntCounter., LongCounter#ll 


DoubleCounter. 


累加 器 的 使 用 步骤 如 下 。 
(1) Git BINA 


(2) 注册 累加 器 。 


getRuntimeContext().addAccumulator("num-lines", this.nu 
mLines) ; 


(3) HRI. 


(4) 获取 累加 器 的 结果 。 








imap BEF Ze 2D By 


Bas fa K: 


据 。 





Vy. se 
YER: 


取款 加 器 的 值 。 


Java 代 码 实 现 如 下 。 





只 有 在 任务 执行 结束 后 ， 才 能 获 


package xuwei.tech.batch.batchAPI; 


import 
import 
ter; 
import 
n; 
import 
ction; 
import 
import 
import 
import 
import 


org 


org. 


org 


org. 
.apache. 
org. 
org. 
org. 


org 


.apache. 
org. 


apache. 


apache. 


.apache. 


apache. 


apache. 
apache. 
apache. 


Flink.api.common.JobExecutionResult; 
common . accumulators .IntCoun 


Flink. 


Flink. 


Flink. 


Flink. 
Flink. 
Flink. 
Flink. 
Flink. 


api. 
api. 
api. 


api. 
api. 
api. 
api. 
api. 


common. functions .MapFunctio 


common. functions .RichMapFun 


java 


java 
java 
java 


.DataSet; 
java. 
.operators.DataSource; 
.operators.MapOperator ; 
.tuple.Tuple2; 


ExecutionEnvironment ; 


import org.apache.Flink. configuration. Configuration; 


import java.util.ArrayList; 
import java.util.HashMap; 
import java.util.List; 


/** 
* 全 局 累加 缆 
* Created by xuwei.tech 
"7 


public class BatchDemoCounter { 


public static void main(String[] args) throws Excep 
tion{ 





// 获 取 运 行 环境 

ExecutionEnvironment env = ExecutionEnvironment 
.getExecutionEnvironment() ; 

DataSource<String> data = env.fromElements("a", 
"b", “c", "d"); 


DataSet<String> result = data.map(new RichMapFu 
nction<String, String>() { 


//1: AJE RIAS 


private IntCounter numLines = new IntCounter 


(); 


@Override 
public void open(Configuration parameters) 
throws Exception { 
super.open(parameters) ; 
//2: 注册 累加 器 
getRuntimeContext() .addAccumulator ("num 
-lines",this.numLines) ; 


} 


//int sum = ð; 
@Override 
public String map(String value) throws Exce 
ption { 
// 如 果 并 行 度 为 1， 则 使 用 普通 的 累加 求 和 即 可 ; 
如 果 设 置 多 个 并 行 度 ， 则 普通 的 累加 求 和 
// 结 果 就 不 准确 了 
/ /sum++; 
//System.out.println("sum: "+sum) ; 
this.numLines.add(1); 
return value; 





S 

//result.print(); 
result.writeAsText("d:\\data\\count10"); 
JobExecutionResult jobResult = env.execute("cou 


//3: 获取 累加 器 


int num = jobResult.getAccumulatorResult("num-1 


System.out.println("num:"+num) ; 





Scala 代 码 实 现 如 下 。 


package xuwei.tech.batch.batchAPI 


import org.apache.Flink.api.common.accumulators.IntCoun 
ter 

import org.apache.Flink.api.common.functions.RichMapFun 
ction 

import org.apache.Flink.api.scala.ExecutionEnvironment 
import org.apache.Flink.configuration.Configuration 


/** 
* Counter 全 局 累加 器 


* Created by xuwei.tech 
6 


object BatchDemoCounterScala { 
def main(args: Array[String]): Unit = { 


val env = ExecutionEnvironment. getExecutionEnvironm 
ent 


import org.apache.Flink.api.scala._ 
val data = env.fromElements("a","b","c","d") 


val res = data.map(new RichMapFunction[ String, Strin 
g] { 有 
//1: 定义 累加 项 


val numLines = new IntCounter 


override def open(parameters: Configuration): Uni 
Eres 
super .open(parameters) 
/ 12: EA} Mas 
getRuntimeContext.addAccumulator("num-lines", th 
is.numLines) 


} 


override def map(value: String) = { 
this.numLines.add(1) 
value 


} 


}).setParallelism(4) 


res.writeAsText("d:\\data\\count21") 
val jobResult = env.execute("BatchDemoCounterScala" 


//3: IRAR DM at 

val num = jobResult.getAccumulatorResult[ Int] ("num- 
lines") 

println( "num: "+num) 





5.3 Flink Broadcast 和 Accumulator 的 区 


jl 








e Broadcast 人 允许 程序 员 将 一 个 只 读 的 变量 绥 存 在 
每 台 机 器 上 ， 而 不 用 在 任务 之 间 传 递 变量 。 广 
播 变量 可 以 进行 共享 ， 但 是 不 可 以 进行 修改 。 

。Accumulator 可 以 在 不 同 任务 中 对 同一 个 变量 进 
行 昧 加 操作 ， 但 是 只 有 在 任务 执行 结束 的 时 候 
AY BEAR AS ZA JI ait HY fe ZS ZR o 








5.4 Flink Distributed Cache 


Flink 提 供 了 一 个 分 布 式 缓存 (Distributed 
Cache) , Æi F Hadoop, PI LUE H EJF íT K 
中 很 方便 地 谈 取 本 地 文件 。 





此 绥 存 的 工作 机 制 为 程序 注册 一 个 文件 或 者 目 
录 《〈 本 地 或 者 远程 文件 系统 ， 如 HDFS 或 者 $S3) ， 
通过 ExecutionEnvironment 注 册 绥 存 文件 并 为 它 起 一 
个 名 称 。 当 程序 执行 时 ，Elink 目 动 将 文件 或 者 目录 
复制 到 所 有 TaskManager 节 点 的 本 地 文件 系统 ， 用 
户 可 以 通过 这 个 指定 的 名 称 查 找 文 件 或 者 目录 ， 然 
后 从 TaskManager 节 点 的 本 地 文件 系统 访问 它 。 








Flink 分 布 式 绥 存 的 使 用 步 桑 。 


(1) 注册 一 个 文件 。 


env.registerCachedFile("hdfs:///path/to/your/file", "hd 





fsFile") 


(2) 访问 数据 。 


File myFile = getRuntimeContext().getDistributedCache() 





.getFile("hdfsFile") ; 


分 布 式 缓存 案例 的 Java 代 码 实现 如 下 。 





package xuwei.tech.batch.batchAPI; 


import org.apache.commons.io.FileUtils; 

import org.apache.Flink.api.common. functions .MapFunctio 
n; 

import org.apache.Flink.api.common.functions.RichMapFun 
ction; 

import org.apache.Flink.api.java.DataSet; 

import org.apache.Flink.api.java.ExecutionEnvironment ; 
import org.apache.Flink.api.java.operators.DataSource; 
import org.apache.Flink.api.java.operators.MapOperator ; 
import org.apache.Flink.api.java.tuple.Tuple2; 

import org.apache.Flink. configuration. Configuration; 


import java.io.File; 

import java.util.ArrayList; 
import java.util.HashMap; 
import java.util.List; 


/** 
* Distributed Cache 
* Created by xuwei.tech 
ad 


public class BatchDemoDisCache { 


public static void main(String[] args) throws Excep 
tion{ 





// 获 取 运 行 环境 
ExecutionEnvironment env = ExecutionEnvironment 
.getExecutionEnvironment() ; 


//1: 注册 一 个 文件 ， 可 以 使 用 HDFS 或 者 S3 上 的 文件 
env.registerCachedFile("d:\\data\\file\\a.txt", 
"a.txt"); 


DataSource<String> data = env.fromElements("a", 
"b", ia cma "d"); 


DataSet<String> result = data.map(new RichMapFu 
nction<String, String>() { 
private ArrayList<String> dataList = new Ar 
rayList<String>(); 


@Override 
public void open(Configuration parameters) 
throws Exception { 
Super.open(parameters) ; 
//2: 使 用 文件 
File myFile = getRuntimeContext().getDi 
stributedCache().getFile("a.txt"); 
List<String> lines = FileUtils.readLine 
S(myFile) ; 
for (String line : lines) { 
this.dataList.add(line) ; 
System.out.printin("line:' 


+ line); 


} 


@Override 
public String map(String value) throws Exce 


ption { 


// 在 这 里 就 可 以 使 用 dataList 


return value; 





Scala 代 码 实 现 如 下 。 





package xuwei.tech.batch.batchAPI 


import org.apache.commons.io.FileUtils 

import org.apache.Flink.api.common.functions.RichMapFun 
ction 

import org.apache.Flink.api.scala.ExecutionEnvironment 
import org.apache.Flink.configuration.Configuration 


prt 
* Distributed Cache 
* Created by xuwei.tech 
*/ 
object BatchDemoDisCacheScala { 


def main(args: Array[String]): Unit = { 


val env = ExecutionEnvironment.getExecutionEnvironm 
ent 


import org.apache.Flink.api.scala._ 


//1: 注册 文件 

env.registerCachedFile("d:\\data\\file\\a.txt","b.t 
xt") 

val data = env.fromElements("a","b","c","d") 


val result = data.map(new RichMapFunction[String,St 
ring] { 


override def open(parameters: Configuration): Uni 


super .open(parameters) 
//2: 使 用 文件 
val myFile = getRuntimeContext .getDistributedCa 
che.getFile("b.txt") 
val lines = FileUtils.readLines(myFile) 
val it = lines.iterator() 
while (it.hasNext){ 
val line = it.next(); 
println("line:"+line) 
} 
} 
override def map(value: String) = { 
value 
} 
}) 


result.print() 





#6% Flink State 管 理 与 恢复 


本 章 主 要 针对 Flink State CORA) 进行 分 析 ， 
包含 状态 的 管理 和 恢复 ， 以 及 Flink 中 的 任务 重启 某 
NY 





6.1 State 


HU word count 的 例子 没有 包 售 状态 管理 。 如 
果 一 个 Task 在 处 理 过 程 中 挂 挥 了 ， 那 么 它 在 内 存 中 
Ta 所 有 的 数据 都 需要 重新 计算 。 从 
钳 和 消息 处 理 的 语义 (At -least-once 和 Exactly- 
once) 上 来 说 ，Flink 引 入 了 State 和 CheckPoint。 





这 两 个 概念 的 区 别 如 下 。 





。 State 一 般 指 一 个 具体 的 Task/Operator 的 状态 ， 
State 数 据 默 认 保 存在 Java 的 堆 内 存 中 。 


e 而 CheckPoint〈 可 以 理解 为 CheckPoint 是 把 State 
数据 持久 化 存储 了 ) 则 表示 了 一 个 Flink Job 在 一 
个 特定 时 刻 的 一 份 全 局 状态 快照 ， 即 包含 了 所 
有 Task/Operator 的 状态 。 


注意 : Task 是 Flink 中 执行 的 基本 单位 ， 


Operator 是 算 子 〈Transformation ) 。 





State 可 以 被 记录 ， 在 失败 的 情况 下 数据 还 可 以 
恢复 。Flink 中 有 以 下 两 种 基本 类 型 的 State。 





Keyed State. 


Operator State. 
Keyed State 和 Operator State 以 两 种 形式 存在 。 


原始 状态 (Raw State) : 由 用 户 自 行 管理 状态 
具体 的 数据 结构 ， 框 架 在 做 CheckPoint 的 时 候 ， 


使 用 byte[] 谈 与 状态 内 容 ， 对 其 内 部 数据 结构 一 
无 所 知 。 

。 托 管状 态 (Managed State) : 由 Flink 框 架 管理 
的 状态 。 





通常 在 DataStream 上 推荐 使 用 托管 状态 ， 当 实 
现 一 个 用 户 自 定义 的 Operator 时 使 用 到 原始 状态 。 


6.1.1 Keyed State 








Keyed State, WZ E X mi4 J KeyedStream 
上 的 状态 ， 这 个 状态 是 跟 特 定 的 Key 绑 定 的 。 
KeyedStream 流 上 的 每 一 个 Key， 都 对 应 一 个 State。 


stream.keyBy(......) 这 个 代码 会 返回 一 个 


KeyedStream 对 象 。 


Flink 针 对 Keyed State 提 供 了 以 下 可 以 保存 State 
的 数据 结构 。 


e ValueState<T>: 关 型 为 T 的 单 值 状态 ， 这 个 状态 
与 对 应 的 Key 绑 定 ， 是 最 简单 的 状态 。 它 可 以 通 
过 update 方 法 更 新 状态 值 ， 通 过 value(0) 方 法 获取 
状态 值 。 

ListState<T>: Key 上 的 状态 值 为 一 个 列表 ， 这 
个 列表 可 以 通过 add 方 法 往 列 表 中 附加 值 ， 也 可 
以 通过 getO 方 法 返回 一 个 Iterable<T> 来 壳 历 状态 
E 

ReducingState<T>: 每 次 调用 add 方 法 添加 值 的 
时 候 ， 会 调用 用 户 传 入 的 reduceFunction， 最 后 
合并 到 一 个 单一 的 状态 值 。 

MapState<UK, UV>: 状态 值 为 一 个 Map， 用 户 
通过 put 或 putAll 方 法 添加 元 素 。 








需要 注意 的 是 ， 以 上 所 述 的 State 对 象 ， 仅 仅 用 
于 与 状态 进行 交互 《和 更新、 删除 、 清 空 等 ) ， 而 真 
正 的 状态 值 有 可 能 存在 于 内 存 、 人 磁盘 或 者 其 他 分 布 
式 存储 系统 中 ， 相 当 于 我 们 只 是 挂 有 了 这 个 状态 的 
句柄 。 








案例 代码 如 下 。 





public class CountWindowAverage extends RichFlatMapFunc 
tion<Tuple2 
<Long, Long>, Tuple2<Long, Long>> { 


[** 
* Valuestate 状 态 句柄 ， 第 一 个 字段 为 count， 第 二 个 字段 为 
sum 
人 
private transient ValueState<Tuple2<Long, Long>> su 
m; 
@Override 


public void flatMap(Tuple2<Long, Long> input, Colle 
ctor<Tuple2<Long, Long>> out) throws Exception { 





// 获取 当前 状态 值 


Tuple2<Long, Long> currentSum = sum.value() ; 


// 更 新 
currentSum.f@ += 1; 
currentSum.f1 += input. f1; 


// 更 新 状态 值 


sum.update(currentSum) ; 


// 如 果 count >=2 清 空 状 态 值 ， 重 新 计算 
if (currentSum.f@ >= 2) { 
out.collect(new Tuple2<>(input.f@, currents 
um.f1 / currentSum.f@) ); 
sum.clear(); 


} 


@Override 
public void open(Configuration config) { 
ValueStateDescriptor<Tuple2<Long, Long>> descri 
ptor = 
new ValueStateDescriptor<>( 
"average", // 状态 名 称 
TypeInformation.of(new TypeHint 
<Tuple2<Long, Long>>() {}), // 状态 类 型 
Tuple2.of(@L, @L)); // 状态 默认 
值 
sum = getRuntimeContext().getState(descriptor) ; 


// 算 子 计算 处 理 
env.fromElements(Tuple2.of(1L, 3L), Tuple2.of(1L, 5L), 
Tuple2.of(1L, 7L), Tuple2.of(1L, 4L), Tuple2.of(1L, 2L) 


.keyBy(@) 
.flatMap(new CountWindowAverage() ) 
-print(); 


// 最 终 打印 的 结果 是 (1,4) 和 (1,5) 





6.1.2 Operator State 


Operator State 与 Key 无 天， 而 是 与 Operator 绑 


定 ， 整 个 Operator 只 对 应 一 个 State。 


Flink 针 对 Operator State 提 供 了 以 下 可 以 保存 
State 的 数据 结构 。 


ListState<T> 


举例 来 说 ，Flink 中 的 Kafka Connectort (HA J 
Operator State， 它 会 在 每 个 Connector 实 例 中 ， 保 存 
该 实例 消费 Topic 的 所 有 (partition, offset) 映 射 ， 如 图 
6.1 所 示 。 


偏 移 量 





partitionld: 1 ;offser:18 





partitionld:2;offser:15 








partitionld: 3;offser:39 





图 6.1 ”Kafka 中 Topic 的 消费 信息 


案例 代码 如 下 。 





public class BufferingSink 
implements SinkFunction<Tuple2<String, Integer> 


>» 
CheckpointedFunction { 


private final int threshold; 


private transient ListState<Tuple2<String, Integer> 
> checkpointedState; 


private List<Tuple2<String, Integer>> bufferedEleme 
nts; 


public BufferingSink(int threshold) { 
this.threshold = threshold; 
this.bufferedElements = new ArrayList<>(); 


} 


@Override 
public void invoke(Tuple2<String, Integer> value) t 
hrows Exception { 
bufferedElements.add(value) ; 
if (bufferedElements.size() == threshold) { 
for (Tuple2<String, Integer> element: buffe 
redElements) { 
// send it to the sink 


} 
bufferedElements.clear(); 
} 
} 
@Override 


public void snapshotState(FunctionSnapshotContext c 
ontext) throws Exception { 
checkpointedState.clear(); 
for (Tuple2<String, Integer> element : buffered 
Elements) { 
checkpointedState.add(element) ; 


} 


@Override 
public void initializeState(FunctionInitializationC 
ontext context) throws Exception { 
ListStateDescriptor<Tuple2<String, Integer>> de 
scriptor = 
new ListStateDescriptor<>( 
"buffered-elements", 
TypeInformation.of(new TypeHint<Tuple2< 
String, Integer>>() {})); 
checkpointedState = context. getOperatorStateSto 
re().getListState(descriptor) ; 


if (context.isRestored()) { 
for (Tuple2<String, Integer> element : chec 
kpointedState.get()) { 
bufferedElements.add(element) ; 


} 





6.2 State 的 容错 


当 程 序 出 现 问 题 需要 恢复 Sate 数 据 的 时 候 ， 只 
有 程序 提供 支持 才 可 以 实现 State 的 容错 


State 的 容错 需要 依靠 CheckPoint 机 制 ， 这 样 才 
可 以 保证 Exactly-once 这 种 语义 ， 但 是 注意 ， 它 只 能 


保证 Flink 系 统 内 的 Exactly-once， 比 如 Flink 内 置 支 
持 的 算 子 。 





针对 Source 和 Sink 组 件 ， 如 采 想 要 保证 Exactly- 
once 的 话 ， 则 这 些 组 件 本 映 应 文 持 这 种 语义 。 


下 面 我 们 分 析 State 容 错 中 的 CheckPoint 机 制 |。 
1. 生成 快照 


Flink 通 过 CheckPoint 机 制 可 以 实现 对 Source 中 
的 数据 和 Task 中 的 State 数 据 进行 存储 。 如 图 6.2 所 
不 。 











生成 快照 














图 6.2 ”生成 快照 
2. 恢复 快照 


Flink 还 可 以 通过 Restore 机 制 来 恢复 之 前 


CheckPoint 快 照 中 保存 的 Source 数 据 和 Task 中 的 
State 数 据 。 如 图 6.3 所 示 。 





\ 





pe 
状态 的 快照 状态 的 快照 


恢复 快照 

















图 6.3 ”恢复 快照 


6.3 CheckPoint 


为 了 保证 State 的 容错 性 ，Flink 需 要 对 State 进 行 


CheckPoint。CheckPoint 是 Flink 实 现 容 错 机 制 的 核 
心 功能 ， 它 能 够 根据 配置 周期 性 地 基于 Stream 中 各 
个 Operator/Task 的 状态 来 生成 快照 ， 从 而 将 这 些 状 
态 数 据 定期 持久 化 存储 下 来 。Flink 程 序 一 旦 意外 崩 
溃 ， 重 新 运行 程序 时 可 以 有 选择 地 从 这 些 快照 进行 
恢复 ， 从 而 修正 因为 故障 市 来 的 程序 数据 只 第 。 





Flink 的 CheckPoint 机 制 可 以 与 Stream 和 State 持 
久 化 存储 交互 的 前 提 有 以 下 两 点 。 





。 需 要 有 持久 化 的 Source， 它 需要 支持 在 一 定时 间 
内 重 放 事件 ， 这 种 Source 的 典型 例子 束 是 持久 化 
的 消息 队列 “如 Apache Kafka、RabbitMQ 等 ) 
或 文件 系统 (如 HDFS、S3、GFS 等 ) 。 

。 需要 有 用 于 State 的 持久 化 存储 介质 ， 比 如 分 布 
式 文件 系统 (如 HDFS、S3、GFS 等 ) 。 





驮 认 情 况 下 ，CheckPoint 功 能 是 Disabled (74 
H) 的 ， 使 用 时 需要 先 开 启 它 。 


通过 如 下 代码 即 可 开局 。 


完整 的 参考 代码 如 下 。 


StreamExecutionEnvironment env = StreamExecutionEnviron 
ment.getExecutionEnvironment() ; 

// 每 隔 1666 ms 启动 一 个 检查 点 (设置 CheckPoint 的 周期 ) 
env.enableCheckpointing(10@@) ; 

// 高 级 选项 : 

// 设置 模式 为 Exactly-once (这 是 默认 值 ) 

env. getCheckpointConfig().setCheckpointingMode(Checkpoi 
ntingMode.EXACTLY_ONCE) ; 

// 确保 检查 点 之 间 有 至 少 568 ms 的 间隔 (CheckPoint 最 小 间隔 ) 
env.getCheckpointConfig().setMinpauseBetweenCheckpoints 
(500); 

// 检查 点 必须 在 1min 内 完成 ， 或 者 被 丢弃 (CheckPoint 的 超时 时 间 ) 
env.getCheckpointConfig().setCheckpointTimeout(60000); 
// 同一 时 间 只 允许 操作 一 个 检查 点 
env.getCheckpointConfig().setMaxConcurrentCheckpoints(1 
); 

// 表示 一 旦 Flink 处 理 程序 被 cancel 后 ， 会 保留 CheckPoint 数 据 ， 
以 便 根 据 实际 需要 恢复 到 指定 的 CheckPoint 
env.getCheckpointConfig().enableExternalizedCheckpoints 
(ExternalizedCheckpointCleanup.RETAIN ON CANCELLATION); 

















注意 : enableExternalizedCheckpoints()77 


法 中 可 以 接收 以 下 两 个 参数 。 


e ExternalizedCheckpointCleanup.RETAIN_ON_CA) 
表示 一 旦 Flink 处 理 程序 被 cancel 后 ， 会 保留 
CheckPoint 数 据 ， 以 便 根据 实际 需要 恢复 到 指定 
的 CheckPoint。 

e ExternalizedCheckpointCleanup. DELETE_ON_CA 
表示 一 旦 Flink 处 理 程序 被 cancel 后 ， 会 删除 
CheckPoint 数 据 ， 只 有 Job 执 行 失败 的 时 候 才 会 
保存 CheckPoint。 


当 CheckPoint 机 制 开局 之 后 ， 默 认 的 
CheckPointMode 是 Exactly-once，CheckPointMode 有 
两 种 选项 : Exactly-once#ll At-least-once 





Exactly-once 对 于 大 多 数 应 用 来 说 是 合适 的 ， 
At-least-once 可 能 用 在 某 些 延迟 超 低 的 应 用 程序 
(GBA EIR ALE) E. 





6.4 StateBackend 


默认 情况 下 ，State 会 保存 在 TaskManager 的 内 
存 中 ，CheckPoint 会 存储 在 JobManager 的 内 存 中 。 
State 利 CheckPoint 的 存储 位 置 取 决 于 StateBackend 的 
配置 。Flink 一 共 提 供 了 3 种 StateBackend。 


1. MemoryStateBackend 


State 数 据 保 存在 Java 推 内 存 中 ， 执 行 
CheckPoint 的 时 候 ， 会 把 State 的 快照 数据 保存 到 
JobManager 的 内 存 中 。 基 于 内 存 的 StateBackend 在 
生产 环境 下 不 建议 使 用 。 





2. FsStateBackend 


State 数 据 你 存在 TaskManager 的 内 存 中 ， 执 行 
CheckPoint 的 时 候 ， 会 把 State 的 快照 数据 保存 到 配 
置 的 文件 系统 中 ， 可 以 使 用 HDFS 等 分 布 式 文 件 系 





统 。 
3. RocksDBStateBackend 


RocksDB 跟 上 面 的 都 略 有 不 同 ， 它 会 在 本 地 文 
件 系 统 中 维护 状态 ，State 会 直接 写 入 本 地 RocksDB 
中 。 同 时 它 需 要 配置 一 个 远 端 的 FileSystem 
URI (一 般 是 HDFS〉 ， 在 进行 CheckPoint 的 时 候 ， 
会 把 本 地 的 数据 直接 复制 到 远 闪 的 FileSystem 中 。 
Fail Over 《故障 切换 ) 的 时 候 直 接 从 远 端 的 
Filesystem Vk 8 BH BASH. RocksDB i Ak J State 
SPA FEM HRS, TAS SORES RE ZA HC Bs i SCF 
系统 中 ， 推 荐 在 生产 中 使 用 。 








如 何 修改 Flink 的 State 和 CheckPoint 存 储 的 位 置 
NE? 有 以 下 两 种 方式 。 


1. 单 任务 调整 


修改 当前 任务 的 代码 。 


env.setStateBackend(new FsStateBackend("hdfs://hadoop1@ 


@:9000/Fflink/checkpoints")); 





可 以 给 setStateBackend0) 方 法 传递 new 
MemoryStateBackendO0， 也 可 以 给 setStateBackend0) 
方法 传递 new RocksDBStateBackend(filebackend, 


true). 


主意 : 在 使 用 RocksDBStateBackend 这 个 
类 的 时 候 需 要 引入 第 三 方 依 赖 。 





<dependency> 
<groupId>org.apache.flink</groupId> 
<artifactId>flink-statebackend-rocksdb_2.11</artifa 


ctId> 
<version>1.6.1</version> 
</dependency> 





2. 全 局 调整 


需要 修改 flink-conf.yaml 配 置 文件 ， 主 要 修改 下 
面 两 个 参数 。 


e state.backend: filesystem. 
e state.checkpoints.dir: 
hdfs://namenode:9000/flink/checkpoints 。 


注意 : state.backend 的 值 可 以 是 下 面 这 3 
种 (0) 





e jobmanager# 7n 1% H] MemoryStateBackend. 
e filesystem 7r 1% HW FsStateBackend. 
e rocksdb#<7y ( H RocksDBStateBackend. 


默认 情况 下 ， 如 果 设 置 了 CheckPoint 选 项 ， 则 
Flink 只 保留 最 近 成 功 生 成 的 1 个 CheckPoint， 而 当 
Flink 程 序 失败 时 ， 可 以 通过 最 近 的 CheckPoint 来 进 


行 恢 复 。 但 是 ， 如 果 希 望 保留 多 个 CheckPoint， 并 
能 够 根据 实际 需要 选择 其 中 一 个 进行 恢复 ， 就 会 更 
加 灵活 。 


比如 ， 我 们 发 现 最 近 4h 的 数据 记录 处 理 有 问 
题 ， 和 希望 将 整个 状态 还 原 到 4h 之 前 。Flink 可 以 文 持 
保留 多 个 CheckPoint， 需 要 在 Flink 的 配置 文件 
conf/flink-conf.yaml 中 添加 如 下 配置 ， 指 定 最 多 可 
以 保存 的 CheckPoint 的 个 数 。 


state.checkpoints.num-retained: 20 


这 样 设置 以 后 就 可 以 查看 到 对 应 的 CheckPoint 
在 HDFS 上 的 文件 目录 。 


可 以 执行 下 面 命令 碍 看 。 
hdfs dfs -ls hdfs://hadoop100:9000/flink/checkpoints 


如 果 希 望 回 退 到 某 个 CheckPoint 点 ， 只 需要 指 


定 对 应 的 某 个 CheckPoint 路 径 即 可 实现 。 
比如 ， 某 Flink 程 序 异 常 失 败 ， 或 者 最 近 一 上段 时 


则 内 数据 处 理 错 误 ， 就 可 以 将 程序 通过 某 一 个 
CheckPoint 点 进行 恢复 。 


bin/flink run -s hdfs://hadoop100:9000/flink/checkpoint 
s/467e17d2cc343e6c56255d222bae3421/chk-56/_metadata fli 





nk-job.jar 


程序 正常 运行 后 ， 还 会 按照 CheckPoint 配 置 运 
行 ， 继 续 生 成 CheckPoint 数 据 。 


6.5 Restart Strategy 


Flink 文 持 不 同 的 Restart Strategy (EJA R 
BS) ， 以 便 在 故障 发 生 时 控制 作业 重启。 集群 在 局 
动 时 会 伴随 一 个 默认 的 重 司 有 策略， 在 没有 定义 具体 
重 局 舍 略 时 会 使 用 该 默认 策略 ;如 采 在 任务 提交 时 
指定 了 一 个 重启 策略 ， 该 生 略 会 覆盖 集群 的 默认 货 














SAA HY BE ORR Ae link AY ic. x4 flink- 
conf.yaml 中 的 restart-strategy 参 数 指定 的 。 








Fa FA EY BE Ja RS AE AH 


e [fle lah (Fixed delay) 。 
e KM (Failure rate) 。 
e LE CNorestart) 。 








如 果 没 有 局 用 CheckPoint， 则 使 用 无 重启 策 
略 。 如 果 启 用 了 CheckPoint， 但 没有 配置 重启 策 
略 ， 则 使 用 固定 间 隅 策略 ， 其 中 
Integer.MAX_VALUE 参 数 是 允许 符 试 重 局 的 次 
数 。 








重启 策略 可 以 在 flink-conf.yaml 中 配置 ， 这 属于 
全 局 配置 ， 也 可 以 在 茶 个 任务 代码 中 动态 指定 ， 且 








只 对 这 个 任务 有 效 ， 会 履 羡 全 局 的 配置 。 
下 面 来 详细 分 析 一 下 这 3 种 重启 策略 。 
1. 固定 间隔 


全 局 配置 ， 修 改 flink-conf.yaml 中 的 参数 。 


restart-strategy: fixed-delay 


restart-strategy.fixed-delay.attempts: 3 
restart-strategy.fixed-delay.delay: 10 s 





在 任务 代码 中 做 如 下 配置 。 


env.setRestartStrategy(RestartStrategies.fixedDelayRest 
art( 


3, // 尝试 重启 的 次 数 
Time.of(10, TimeUnit.SECONDS) // 间隔 
) ) ; 





2. 失败 率 


全 局 配置 ， 修 改 flink-conf.yaml 中 的 参数 。 


restart-strategy: failure-rate 


restart-strategy.failure-rate.max-failures-per-interval 
: 3 
restart-strategy.failure-rate.failure-rate-interval: 5 
min 

restart-strategy.failure-rate.delay: 10 s 





在 任务 代码 中 做 如 下 配置 。 


env.setRestartStrategy(RestartStrategies.failureRateRes 
tart( 
3, // 一 个 时 间 段 内 的 最 大 失败 次 数 


Time.of(5, TimeUnit.MINUTES), // 衡量 失败 次 数 的 是 时 间 段 
Time.of(10, TimeUnit.SECONDS) // 间隔 
) ) ; 





3. 无 重 局 


全 局 配置 ， 修 改 flink-conf.yaml 中 的 参数 。 


restart-strategy: none 


在 任务 代码 中 做 如 下 配置 。 
env.setRestartStrategy(RestartStrategies.noRestart()); 


6.6 SavePoint 


Flink 通 过 SavePoint 功 能 可 以 升级 程序 ， 然 后 继 
续 从 升级 前 的 那个 点 开始 执行 计算 ， 保 证 数据 不 中 
源 。SavePoint 可 以 生成 全 局 、 一 致 性 的 快照 ， 也 可 
以 保存 数据 源 、Offset、Operator 操 作 状 态 等 信息 ， 
还 可 以 从 应 用 在 过 去 任意 做 了 SavePoint 的 时 刻 开 始 
继续 执行 。 





那么 这 个 SavePoint 和 我 们 前 面 说 的 CheckPoint 
有 什么 区 别 呢 ? 


1. CheckPoint 


应 用 定时 触 太 ， 用 于 保存 状态 ， 它 会 过 期 ， 在 
内 部 应 用 失败 重 局 的 时 候 使 用 。 


2. SavePoint 


用 户 手动 执行 ， 是 指 同 CheckPoint 的 指针 ， 它 
不 会 过 期 ， 一 般 在 升级 的 情况 下 使 用 。 











注意 : 为 了 能 够 在 作业 的 不 同 版 本 之 间 
以 及 Flink 的 不 同 版 本 之 间 顺 利 升 级 ， 强 烈 推 
荐 程序 员 通 过 UID (String) 方法 手动 给 算 子 
赋予 ID， 这 些 ID 将 用 于 确定 每 一 个 算 子 的 状 
态 范围 。 如 果 不 手 动 给 各 算 子 指定 ID， 则 会 由 
Flink 上 自动 给 每 个 算 子 生成 一 个 ID。 只 要 这 些 
ID 没有 改变 ， 惑 能 从 保存 点 〈SavePoint) 恢 
复 程 序 。 而 这 些 自 动 生成 的 ID 依赖 于 程序 的 结 
构 ， 并 且 对 代码 的 更 改 是 很 敏感 的 。 因 此 ， 强 
烈 建议 用 户 手 动 设 置 ID。 如 图 6.4 所 示 的 代 
A 

















tream<String> stream env 
.~addSource(new StatefulSource(Q)) 
-uidC"source-id") 
shuffleO 


-map(new StatefulMapper ()) 
idC'mapper-id") 








printQ; 





图 6.4 237K FID 
如 何 配置 开 局 SavePoint 功 能 呢 ? 


(1) 在 flink-conf.yaml 中 配置 SavePoint 存 储 的 
位 置 。 


这 不 是 必须 设置 的 ， 但 是 在 设置 后 ， 如 果 要 创 
建 指 定 Job 的 SavePoint， 可 以 不 用 在 手动 执行 命令 
时 指定 SavePoint 的 位 置 。 


state.savepoints.dir: hdfs://hadoop10@:9000/Flink/savep 
oints 


(2) 触发 一 个 SavePoint (直接 触发 或 者 在 
cancel 的 时 候 触 发 ) 。 


直接 触发 SavePoint。 


bin/flink savepoint jobId [targetDirectory] [-yid yarnA 
ppIdj 


在 调用 cancel 的 时 候 触 发 SavePoint。 
bin/flink cancel -s [targetDirectory] jobId [-yid yarnA 
ppId] 


注意 : 以 上 两 种 方式 ， 针 对 Flink on 
YARN 模 式 需 要 指定 -yid 参 数 。 





(3) 从 指定 的 SavePoint 启 动 Job。 


bin/flink run -s savepointPath [runArgs ] 


第 7 童 ”Flink 窗 口 详解 


本 章 主 要 针对 Flink 窗 口 (Window) 进行 分 
析 ， 包 括 Flink 中 提供 的 常见 Window， 以 及 Window 


的 聚合 操作 。 
7.1 Window 


Flink 认 为 Batch 是 Streaming 的 一 个 特例 ， 因 此 
Flink 撒 层 引 擎 是 一 个 流 式 引擎 ， 在 上 面 实现 了 流 处 
理 和 批 处 理 。 而 Window 束 是 从 Streaming 到 Batch 的 
BER o 











通 第 来 讲 ，Window 束 是 用 来 对 一 个 无 限 的 流 
设置 一 个 有 限 的 集合 ， 从 而 在 有 界 的 数据 集 上 进行 
操作 的 一 种 机 制 。 


EGO, OSAP EAB Al 7 a EE AT TP Be J AT AE 
的 ， 因 为 通常 流 是 无 限 的 (无 界 的 ) 。 因 此 ， 流 上 
的 聚合 需要 由 Window 来 划 定 范围 ， 比 如 “计算 过 去 
的 5min” 或 者 “最 后 100 个 元 条 的 和 ”。 


Window 可 以 由 时 间 (Time Window) (如 每 
30s) 或 者 数据 (Count Window) (如 每 100 个 元 
Zz) 驱动 。DataStream API 提 供 了 Time 和 Count 的 
Window。 同 时 ， 由 于 某 些 特殊 的 需要 ，DataStream 
API 也 提供 了 定制 化 的 Window 操 作 ， 供 用 户 目 定义 
Window. WAI7.1 所 示 。 





Lount Window( 数 量 为 3) 


图 7.1 Time Window 和 Count Window 


7.2 Window 的 使 用 


下 面 来 详细 分 析 Window 中 的 Time Window, 
Count Window l} K Fi X Window. 


Window 根 据 类 型 可 以 分 为 两 种 。 


e Tumbling Window: 滚动 窗口 ， 表 示 窗 口内 的 数 
据 没 有 重 登 ， 如 图 7.2 所 示 。 


Wirdows | | Wirdows 2 | Wirdows 3 | Wirdows 4 | Wirdows 5 | 
l l | 
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图 7.2 Tumbling Window 


e Sliding Window: 滑动 窗口 ， 表 示 窗 口内 的 数据 
有 重 登 ， 如 图 7.3 所 示 。 


Windows 1 Windows 3 
| | | 





用 户 1 © 
用 户 2 (XI) 
用 户 3 @ 


l | L 
| 窗口 从小 Windows 2 


eri 


Sliding Window 








图 7.3 Sliding Window 
Window 类 型 之 则 的 关系 如 图 7.4 所 示 。 


Tumbling 
Window 


Sliding 
Window 


图 7.4 Window 类 型 之 间 的 关系 
















7.2.1 Time Window 





Time Window 是 根据 时 间 对 数据 流 进 行 分 组 
的 ， 它 支持 Tumbling Window 和 Sliding Window. 





其 中 timeWindow(Time.minutes(1)) 方 法 表示 
Tumbling 窗 口 的 窗口 大 小 为 1min， 对 每 1min 内 的 数 
据 进 行 聚 合计 算 ， 代 人 码 如 图 7.5 所 示 。 

















图 7.5 Time Window 之 Tumbling Window 


timeWindow(Time.minutes(1),Time.seconds(30)) 
方法 表示 Sliding Window 的 窗口 大 小 为 1min， 滑 动 
间隔 为 30s。 就 是 每 隔 30s 计 算 最 近 1min 内 的 数据 ， 
代码 如 图 7.6 所 示 。 








图 7.6 Time Window Sliding Window 
7.2.2 Count Window 


Count Window 是 根据 元 素 个 数 对 数据 流 进行 分 
组 的 ， 它 也 支持 Tumbling Window 和 Sliding 
Window。 





其 中 countWindow(100) 方 法 表示 Tumbling 
Window 的 窗口 大 小 是 100 个 元 素 ， 当 窗口 中 填 满 
100 个 元 素 的 时 候 ， 就 会 对 窗口 进行 计算 ， 代 码 如 
图 7.7 所 示 。 

















7.7 Count Window-Z Tumbling Window 


countWindow(100,10) 方 法 表示 Sliding Window 
的 窗口 大 小 是 100 个 元 系 ， 背 动 的 间 隅 为 10 个 元 
系 ， 也 就 古 说 每 狐 增 10 个 元 素 束 会 对 前 面 100 个 元 
系 计算 一 次 ， 代 人 码 如 图 7.8 所 示 。 











7.8 Count Window 之 Sliding Window 
7.2.3” 目 定义 Window 


目 定义 Window 可 以 分 为 两 种 : 一 种 是 基于 Key 


的 Window， 一 种 是 不 基于 Key 的 Window， 如 图 7.9 
所 示 。 


。.keyBy(...).widow(...): 属于 基于 Fon 
会 先 对 窗口 中 的 数据 进行 分 组 ， 然 后 再 分 

e .windowAll(...): 属于 不 基 Ao EE a 
对 窗口 所 有 数据 进行 聚合 。 











EF Key Window 
stream 
wkeyBy (> <- keyed versus non-keyed windows 
„wi ndow ( ae) <- required: “assigner” 
[.trigger(...)] <- optional: "trigger" (else default trigger) 
[.evictor(...)] <- optional: “evictor" (else no evictor) 
[.allowedLateness(...)] <- optional: “lateness” (else zero) 
[.sideOutputLateData(...)] <- optional: “output tag” (else no side output for late data) 
.reduce/aggregate/fold/apply() <- required: “function” 
[. getSideOutput(...)] <- optional: “output tag” 
不 基于 Key 的 Window 
stream 
»windowAl1(...) <- required: "assigner" 
[.trigger(...)] <- optional: “trigger” (else default trigger) 
[.evictor(...)] <- optional: "evictor” (else no evictor) 
[.allowedLateness(...)] <- optional: "lateness" (else zero) 
[.sideOutputLateData(...)] <- optional: “output tag” (else no side output for late data) 
.reduce/aggregate/fold/applyQ <- required: “function” 
[.getSideOutput(...)] <- optional: “output tag” 











图 7.9 Hie XWindow 


TimeWindow#llCount Window 是 针对 Window 的 
封装 ， 代 码 如 图 7.10 所 示 。 





7.10 Time Window 底 层 实现 


相对 应 的 ， 也 可 以 通过 timeWindowAll 来 实 
现 ， 这 个 方法 对 windowAl 进 行 了 封装 ， 如 图 7.11 所 
Me 








图 7.11 ”timeWindowAll 底 层 实 现 


7.3 Window 聚合 分 类 


Window 聚 合 操作 分 为 两 种 ， 一 种 是 增 量 聚 
合 ， 一 种 是 全 量 聚合 。 增 量 聚 合 是 指 窗 口 每 进入 一 
条 数据 就 计算 一 次 ， 而 全 量 聚合 是 指 在 窗口 触发 的 
时 候 才 会 对 窗口 内 的 所 有 数据 进行 一 次 计算 。 














Fa DLE DS eR a ER BUT F o 


reduce(reduceFunction). 


aggregate(aggregateFunction). 


sum(). 


min(). 


max()。 


下 面 来 看 一 个 增 量 聚合 的 例子 : Bk, on 
图 7.12 所 示 。 


第 一 次 进来 一 条 数据 8， 则 立刻 进行 累加 求 和 ， 

结果 为 8。 

。 第 二 次 进来 一 条 数据 12， 则 立刻 进行 累加 求 
和 ， 结 果 为 20。 

。 第 三 次 进来 一 条 数据 7， 则 立刻 进行 累加 求 和 ， 
结 采 为 27。 

。 第 四 次 进来 一 条 数据 10， 则 立刻 进行 累加 求 

和 ， 结 果 为 37。 












































一 一 > 8 

8 12 一 20 

8 12 T > 27 

| 8 12 7 10 | n 37 
图 7.12” 增 量 聚 合 案例 


下 面 分 析 reduce 函 数 的 使 用 步骤 ， 代 人 码 如 图 
7.13 所 示 。 





DataStream<Tuple2<String, Long>> input = ...; 


nput 
-ke ee key selector>) 
ow (<w as Letts 








-re ce(new une Func tion<Tu rae 2<String, Long> fhe 
public Tuple2<String, Lo reduc ze ple2<String, Long> v1, Tuple2<String, Long> v2) { 
return new Tu 2 2<>(v1. ae: v1.f1 + v2.f1); 
+ 
DD; 





图 7.13 reduce 增 量 聚 合 函 数 案例 





接 下 来 分 析 aggregate 国 数 的 使 用 步 又， 代码 如 
图 7.14 所 示 。 





@Override 


3 


@Override 


+ 


@Override 


+ 


@Override 


于 
了 


input 
-keyBy(<key selector>) 
-window(<window assigner>) 
-aggregate(new AverageAggregateQ); 





private static class AverageAggregate 
implements AggregateFunction<Tuple2<String, Long>, Tuple2<Long, Long>, Double> { 


public Tuple2<Long, Long> createAccumulator() { 
return new Tuple2<>(OL, OL); 


public Tuple2<Long, Long> add(Tuple2<String, Long> value, Tuple2<Long, Long> accumulator) { 
return new Tuple2<>(accumulator.f0 + value.fi, accumulator.fi + 1L); 


public Double getResult(Tuple2<Long, Long> accumulator) { 
return ((double) accumulator.f0) / accumulator.f1; 


public Tuple2<Long, Long> merge(Tuple2<Long, Long> a, Tuple2<Long, Long> b) { 
return new Tuple2<>(a.f0 + b.f0, a.f1 + b.f1); 


DataStream<Tuple2<String, Long>> input = ...; 





图 7.14 agegregatel4 ar RA pk BLE Bl 


全 量 聚 合 


行 聚 合计 算 ， 








指 当 属于 窗口 的 数据 到 齐 ， 才 开始 进 
可 以 实现 对 窗口 内 的 数据 进行 排序 等 





需求 。 和 常见 的 全 量 聚 合 函 数 为 


apply(windowFunction) 和 process(processSWindow 


Function). 





注意 : processWindowFunctionlt 


windowFunction 提 供 了 更 多 的 Context( 上下文) 


A 


=F. 





下 面 来 看 一 个 全 量 聚 合 的 例子 : 求 最 大 值 ， 如 
图 7.15 所 示 。 


第 一 次 进来 一 条 数据 8。 

第 二 次 进来 一 条 数据 12。 

第 三 次 进来 一 条 数据 7。 

第 四 次 进来 一 条 数据 10， 此 时 窗口 触发 ， 才 会 
对 窗口 内 的 数据 进行 排序 ， 获 取 最 大 值 。 








下 面 来 分 析 apply 函 数 的 使 用 步骤 ， 代 码 如 图 
7.16 所 示 。 





public interface WindowFunction<IN, OUT, KEY, W extends Window> extends Function, Serializable { 


void apply(KEY key, W window, Iterable<IN> input, Collector<OUT> out) throws Exception; 
3 


lt can be used like this: 


Java Scala 
DataStream<Tuple2<String, Long>> input = ...; 
input 


-keyBy(<key selector>) 
-window(<window assigner>) 
-apply(new MywWindowFunction()); 











图 7.16 apply ae RGR 


fae BR process PAI AU) 1 HR, ARES oO 
7.17 所 示 。 





DataStream<Tuple2<String, Long>> input = ...; 


input 
-keyBy(t -> t.f0) 
-timeWindow(Time.minutes(5)) 
-process(new MyProcessWindowFunction()); 


public class MyProcessWindowFunction 
extends ProcessWindowFunction<Tuple2<String, Long>, String, String, TimeWindow> { 


@Override 
public void process(String key, Context context, Iterable<Tuple2<String, Long>> input, Collector<String> out) { 
long count = 0; T 
for (Tuple2<String, Long> in: input) { 
count++; 
} 
out.collect("Window: ”+ context.windowQ + "count: ”+ count); 


了 











图 7.17 “process 全 量 聚 合 案例 


在 ProcessWindowFunction 中 提供 了 一 个 
Context CE FX) 对 象 ， 里 面 提供 了 针对 State 的 一 
些 操 作 。 


S382 Flink Time 详 解 


本 章 主要 针对 Flink Time 中 的 Event Time、 
Ingestion Time, Processing Time 以 及 Watermark 进 行 
详细 讲解 。 


8.1 Time 


Stream 数 据 中 的 Time ATED 分 为 以 下 3 种 。 





e Event Time: 事件 产生 的 时 间 ， 它 通常 由 事件 中 
ESET TA] ERTH IAS o 

e Ingestion Time: 事件 进入 Flink 的 时 间 。 

e Processing Time: 事件 被 处 理 时 当前 系统 的 时 
可。 


这 几 种 时 间 的 对 应 关系 如 图 8.1 所 示 。 


事件 生产 者 


消息 队列 Flink 数 据 源 Flink 窗 口 操作 
(((@))) 


x 


(T) 事 休 进 和 Flink 的 时 间 Oa seca 


(O 事件 产生 时 间 





的 时 间 


图 8.1 ”Flink 中 的 3 种 Time 之 间 的 关系 


假设 原始 日 志 如 下 。 


2019-01-10 10:00:01,134 INFO 


executor.Executor: Finished task in state 0.0 


这 条 数据 进入 Flink 的 时 间 是 2019-01-10 
20:00:00,102. 


AlliA Window Xb FE AY AY [a] 2019-01-10 
20:00:01,100. 


如 果 我 们 想 要 统计 每 分 钟 内 接口 调用 失败 的 错 








误 日 志 个 数 ， 使 用 哪个 时 间 才 有 意义 ?因为 数据 有 
可 能 出 现 延 迟 ， 所 以 使 用 数据 进入 Flink 的 时 间或 者 
Window 处 理 的 时 间 ， 其 实 是 没有 意义 的 ， 此 时 使 
用 原始 日 志 中 的 时 间 才 是 有 意义 的 ， 那 才 是 数据 产 
生 的 时 间 。 

















我 们 在 Flink 的 Stream 程 序 中 处 理 数据 时 ， 默 认 
使 用 的 是 哪个 时 间 呢 ? 如何 修 改 呢 ? 默认 情况 下 ， 
Flink 在 Stream 程 序 中 处理 数据 使 用 的 时 间 是 
ProcessingTime， 想 要 修改 使 用 时 间 可 以 使 用 
setStreamTimeCharacteristic()， 代 码 如 图 8.2 所 示 。 





final StreamExecutionEnvironment en v = StreamExecutionEnvironment.getExecutionEn vironmentQ; 


acteristic(TimeCharacteristic.Processinglime); 








图 8.2 ”代码 设置 使 用 哪 种 时 间 


8.2 Flink 如 何 处 理 乱 序数 据 


在 使 用 EventTime 处 理 Stream 数 据 的 时 候 会 遇 
到 数据 乱 序 的 问题 ， 流 处 理 从 Event (事件 ) 产 
生 ， 流 经 Source， 再 到 Operator， 这 中 间 需 要 一 定 
的 时 间 。 虽 然 大 部 分 情况 下 ， 传 输 到 Operator 的 数 
据 都 是 按照 事件 产生 的 时 间 顺 序 来 的 ， 但 是 也 不 排 
除 由 于 网 络 延 迟 等 原因 而 导致 乱 序 的 产生 ， 特 别 是 
使 用 Kafka 的 时 候 ， 多 个 分 区 之 间 的 数据 无 法 保证 
有 序 。 因 此 ， 在 进行 Window 计 算 的 时 候 ， 不 能 
限期 地 等 下 去 ， 必 须要 有 个 机 制 来 保证 在 特定 的 时 
则 后 ， 必 须 触 发 Window 进 行 计算 ， 这 个 特别 的 机 
制 束 是 Watermark。Watermark 是 用 于 处 理 乱 序 事 件 
的 。 








8.2.1 Watermark 


Watermark 可 以 翻译 为 水 位 线 ， 有 3 种 应 用 场 


Æ 
AF o 


。 有 序 的 Stream 中 的 Watermark， 如 图 8.3 所 示 。 





数据 流 ( 有 序 ) 
El [fas] Ca br) Fe 
pr wd 1) 
水 印 事件 


He Et TH 


图 8.3 ”有 序 的 Stream 中 的 Watermark 


。 无 序 的 Stream 中 的 Watermark， 如 图 8.4 所 示 。 





数据 流 ( 乱 序 ) 
| | 
A) Pec oA 
w(17) w(11) 
ee le wet 
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图 8.4 无 序 的 Stream 中 的 Watermark 


。 多 并 行 度 Stream 中 的 Watermark， 如 图 8.5 所 示 。 
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图 8.5 ”多 并 行 度 Stream 中 的 watermark 


注意 : 在 多 并 行 上 度 的 情况 下 ，Watermark 
会 有 一 个 对 齐 机 制 ， 这 个 对 齐 机 制 会 取 所 有 
Channel 中 最 小 的 Watermark， 图 8.5 中 的 14 和 
29 这 两 个 Watermark 的 最 终 取 值 为 14。 





8.2.2 ”Watermark 的 生成 方式 


通常 情况 下 ， 在 接收 到 Source 的 数据 后 ， 应 该 
并 刻 生 成 Watermark， 但 是 也 可 以 在 应 用 简单 的 
Map 或 者 Filter 操 作 后 再 生成 Watermark。 





注意 : 如 果 指 定 多 次 Watermark， 后 面 指 
定 的 值 会 覆盖 前 面 的 值 。 








Watermark 的 生成 方式 有 两 种 。 
1. With Periodic Watermarks 


。 周 期 性 地 触发 Watermark 的 生成 和 发 送 ， 默 认 是 
100ms 。 

。 每 隔 N 秒 自动 癌 流 里 注入 一 个 Watermark， 时 间 
间隔 由 ExecutionConfig.setAutoWatermarkInterval 
决定 。 每 次 调用 getCurrentWatermark 方 法 ， 如 果 
得 到 的 Watermark 不 为 空 并 且 比 之 前 的 大 ， 吏 注 
入 流 中 。 

。 可 以 定义 一 个 最 大 人 允许 乱 序 的 时 间 ， 这 种 比较 
Tit FA o 

e XF AssignerWithPeriodicWatermarks# H « 


2. With Punctuated Watermarks 


。 基 于 某 些 事件 触发 Watermark 的 生成 和 发 送 。 

。 基于 事件 回流 里 注入 一 个 Watermark， 每 一 个 元 
系 都 有 机 会 判断 是 否 生成 一 个 watermark。 如 果 
得 到 的 Watermark 不 为 空 并 且 比 之 前 的 大 ， 允 注 


入 流 中 。 
。 实现 AssignerWithPunctuatedWatermarks 接 口 。 
第 1 种 方式 比较 第 用 ， 所 以 在 这 里 我 们 使 用 第 1 
种 方式 进行 分 析 。 


参考 官网 文档 中 With Periodic Watermarks 的 使 
用 方法 ， 如 图 8.6 所 示 。 





public class BoundedOutOfOrdernessGenerator implements AssignerWithPeriodicWatermarks<MyEvent> { 
private final long maxOutOfOrderness = 3500; 


private long currentMaxTimestam 
ng extractTimestamp(MyEvent element, long previousElementTimestamp) { 


long timestamp = element.getCreationTimeQ; 
currentMaxTimestamp = Math.max(tim 


estamp, currentMaxTimestamp); 
return timestamp; 

i 

@Override 

publi 


iatermark getCurrentWatermark() { 


return new Watermark(currentMaxTimestamp - maxOutOfOrderness); 
+ 








图 8.6 With Periodic Watermarks 的 使 用 


图 8.6 所 示人 代码 中 的 extractTimestamp 方 法 是 从 
数据 本 身 中 提取 EventTime。getCurrentWatermar 方 


法 是 获取 当前 水 位 线 ， 利 用 currentMaxTimestamp - 
maxOutOfOrderness。maxOutOfOrderness 表 示 是 人 允 
许 数 据 的 最 大 乱 序 时 间 。 


在 这 里 也 需要 实现 接口 
AssignerWithPeriodicWatermarks， 参 考 代码 如 图 8.7 
所 示 。 








final 5 E E nv = StreamE: E O 
am (TimeCharac ) 
DataStream<MyEvent> stream = env.rea dFile( 
at, myFil h eProcessingMode. PROC 
hFil faultFilterQ, ty fo) 
ent: h ampsAnd ermarks am 
fil C ev tyO = WA ) 
Time d ks (mew MyTi am dwatermarks Q); 
withTimestamps. AndWatermark: 
keyBy( (event) - en O) 
meWindow(Time. seconds (10 
ed C (a, b) -> a.add(b) ) 
ddSink(...); 


图 8.7 Watermark fH H 


8.3 ”EventTime+Watermark 解 决 乱 序 数 
HE AY SE EA 


8.3.1 ”实现 Watermark 的 相关 代码 


1. 程序 说 明 


自 先 通过 Socket 模 拟 接 收 数据 ， 然 后 使 用 map 
pki BSE ZT Mb EE, A Val FA assignTimestampsAnd- 
Watermarks 方 法 抽取 timestamp 并 生成 Watermark， 
最 后 调用 Window 打 印信 息 来 验证 Window 被 触发 的 


时 机 。 


2. 代码 实现 








package xuwei.tech.streaming.streamApiDemo; 


import org. 


import org. 
import org. 
import org. 


import org 
ream; 
import org 


apache. 
apache. 
apache. 
apache. 


.apache. 


.apache . 


Flink.api.common. functions .MapFunctio 
Flink.api.java.tuple.Tuple; 
Flink.api.java.tuple.Tuple2; 
Flink.streaming.api.TimeCharacteristi 


Flink.streaming.api.DataStream.DataSt 


Flink.streaming.api.environment.Strea 


mExecutionEnvironment ; 

import org.apache.Flink.streaming.api.functions.Assigne 
rWithPeriodicWatermarks; 

import org.apache.Flink.streaming.api. functions .windowi 
ng.WindowFunction; 
import org.apache.Flink.streaming.api.watermark.Waterma 


rk; 

import org.apache.Flink.streaming.api.windowing.assigne 
rs.TumblingEventTimeWindows ; 

import org.apache.Flink.streaming.api.windowing.time.Ti 
me ; 

import org.apache.Flink.streaming.api.windowing.windows 
. TimeWindow; 

import org.apache.Flink.util.Collector; 


import javax.annotation.Nullable; 
import java.text.SimpleDateFormat ; 
import java.util.ArrayList; 

import java.util.Collections; 
import java.util.Iterator ; 

import java.util.List; 


/** 
* Watermark 案 例 
* Created by xuwei.tech 
*/ 


public class StreamingWindowWatermark { 


public static void main(String[] args) throws Excep 

tion { 

// 定 义 Socket 的 端口 号 

int port = 9000; 

// 获 取 运 行 环境 

StreamExecutionEnvironment env = StreamExecutio 
nEnvironment. getExecutionEnvironment() ; 

// 设 置 使 用 EventTime， 默 认 使 用 processtime 

env.setStreamTimeCharacteristic(TimeCharacteris 
tic.EventTime) ; 

// 设 置 并 行 度 为 1, 默 认 并 行 度 是 当前 机 器 的 CPU 数量 


env.setParallelism(1); 


// 连 接 Socket 获 取 输 入 的 数据 


DataStream<String> text = env.socketTextStream( 
"hadoop100", port, "\n"); 


// 解 析 输 入 的 数据 
DataStream<Tuple2<String, Long>> inputMap = tex 
t.map(new MapFunction<String, Tuple2<String, Long>>() { 
@Override 
public Tuple2<String, Long> map(String valu 
e) throws Exception { 
String[] arr = value.split(","); 
return new Tuple2<>(arr[@], Long.parseL 
ong(arr[1])); 


} 
}); 


// 抽 取 timestamp 和 生成 Watermark 

DataStream<Tuple2<String, Long>> waterMarkStrea 
m = inputMap.assignTimestampsAndWatermarks(new Assigner 
WithPeriodicWatermarks<Tuple2<String, Long>>() { 


Long currentMaxTimestamp = 6L 
final Long maxOutOfOrderness = 16666L;// 最 
大 允许 的 乱 序 时 间 是 18s 


SimpleDateFormat sdf = new SimpleDateFormat 
("yyyy-MM-dd HH:mm:ss.SSS") ; 
/** 
* 定义 生成 Natermark 的 逻辑 
* 默认 166ms 被 调用 一 次 
a 
@Nullable 
@Override 
public Watermark getCurrentWatermark() { 
return new Watermark(currentMaxTimestam 
p - maxOutOfOrderness) ; 


} 


// 定 义 如 何 提取 timestamp 
@Override 
public long extractTimestamp(Tuple2<String, 
Long> element, long previousElementTimestamp) { 
long timestamp = element.f1; 
currentMaxTimestamp = Math.max(timestam 
p, currentMaxTimestamp) ; 
System.out.println("key:"+element.f0+", 
eventtime: ["+element.f1+"|"+sdf. format (element. f1)+"],c 
urrentMaxTimestamp: ["+currentMaxTimestamp+" | "+ 
sdf .format(currentMaxTimestamp ) 
+"],watermark:["+getCurrentWatermark().getTimestamp()+" 
+sdf. format (getCurrentWatermark().getTimestamp())+"]" 


| 
); 


return timestamp; 
} 
})3 
// 分 组 ， 聚 合 
DataStream<String> window = waterMarkStream.key 
By(@) 


.window(TumblingEventTimeWindows.of(Tim 
e.seconds(3)))// 按 照 消息 的 EventTime 分 配 窗 口 ， 和 调用 Time w 
indow 效 果 一 样 

.apply(Cnew WindowFunction<Tuple2<String 
, Long>, String, Tuple, TimeWindow>() { 

/** 
* 对 Window 内 的 数据 进行 排序 ， 保 证 数据 
的 顺序 
@param tuple 
@param window 
@param input 
@param out 
@throws Exception 


* XX * * * 


YY 


@Override 

public void apply(Tuple tuple, Time 
Window window, Iterable<Tuple2 
<String, Long>> input, Collector<String> out) throws Ex 
ception { 

String key = tuple.toString() ; 

List<Long> arrarList = new Arra 
yList<Long>(); 

Iterator<Tuple2<String, Long>> 
it = input.iterator(); 

while (it.hasNext()) { 

Tuple2<String, Long> next = 
it.next(); 
arrarList.add(next.f1) ; 

} 

Collections.sort(arrarList); 

SimpleDateFormat sdf = new Simp 
leDateFormat ("yyyy-MM-dd HH:mm:ss.SSS") ; 

String result = key + "," + arr 
arList.size() + + sdf.format(arrarList.get(@)) + ", 
”+ sdf.format(arrarList.get(arrarList.size() - 1)) 

+ "," + sdf.format (wind 
ow.getStart()) + "," + sdf.format(window.getEnd()); 
out.collect(result) ; 


wow 
3 


} 
/7 测试， 把 结果 打印 到 控制 台 即 可 


window.print() ; 


// 注 意 : 因为 Flink 古 懒 加 载 的 ， 所 以 必须 调用 execute 方 
法 ， 这 样 上 面 的 代码 才 会 执行 


env.execute("eventtime-watermark") ; 





3. 程序 详解 
(1) 接收 Socket 数 据 。 


(2) 将 每 行 数据 按照 逗号 分 隔 ， 每 行 数 据 调 
用 Map 转 换 成 Tuple<String,Long> 类 型 。 其 中 Tuple 
中 的 第 1 个 元 素 代 表 有 共 体 的 数据 ， 第 2 个 元 素 代 表 数 
据 的 EventTime。 


(3) 抽取 Timestamp， 生 成 Watermark， 人 允许 
的 最 大 乱 序 时 间 是 108， 并 打印 (Key, 
EventTime, CurrentMaxTimestamp, Watermark ) 


Sa. 


(4) 分 组 聚合 ，Window 窗 口 大 小 为 3s， 输 出 
(Key， 窗 口内 元 系 个 数 ， 窗 口内 最 初 元 素 进 入 的 
时 间 ， 窗 口内 最 后 元 素 进 入 的 时 间 ， 窗 口 目 身 开 始 
时 间 ， 窗 口 自身 结束 时 间 ) 。 








8.3.2 iit aca RE Watermark) HY |F 








在 这 里 重点 但 看 Watermark 和 Timestamp 的 时 
间 ， 通 过 数据 的 输出 来 确定 Window 的 触 友 时 机 。 


首先 开局 Socket， 输 入 第 一 条 数据 。 


[rootQhadoop166 soft]# nc -1 9000 
0001, 1538359882000 


输出 的 结果 如 图 8.8 所 示 。 








图 8.8 ”Watermark 输 出 的 结果 


为 了 碍 看 方便 ， 我 们 把 输入 内 


容 汇 总 到 表格 中 ， 如 表 8.1 所 示 。 


428.1 Watermark 输 出 的 结 


Key CurrentMaxTimeStamp 
pog] |1538359882000 1538359882000 1538359872000 





2018-10-01 10:11:22.000 2018-10-01 10:11:22.000 2018-10-01 10:11:12.000 


此 时 ，Watermark 的 时 间 已 经 沙 后 于 
CurrentMaxTimeStamp10s 了 ， 我 们 继续 输入 。 


[rootQ@hadoop166 soft]# nc -1 9000 
0001 , 1538359882000 





9001 , 1538359886000 


此 时 ， 和 输出 的 结 采 如 图 8.9 所 示 。 





图 8.9 ”Watermark 输 出 的 结 


我 们 再 次 汇总 ， 如 表 8.2 所 示 。 


428.2 ”Watermark 输 出 的 结果 


CurrentMaxTimeStamp 
pog; [1538359882000 1538359882000 1538359872000 


2018-10-01 10:11:22.000 2018-10-01 10:11:22.000 2018-10-01 10:11:12.000 
m 1538359886000 1538359886000 1538359876000 
2018-10-01 10:11:26.000 2018-10-01 10:11:26.000 2018-10-01 10:11:16.000 





继续 输入 。 


[rootQ@hadoop166 soft]# nc -1 9000 
0001 , 1538359882000 


0001 , 1538359886000 
0001 , 1538359892000 





输出 的 结果 内 容 如 图 8.10 所 示 。 





图 8.10 ”Watermark 输 出 的 结果 
汇总 如 表 8.3 所 示 。 


表 8.3 Watermark 输 出 的 结果 


AOU 1538359882000 1538359882000 1538359872000 
2018-10-01 10:11:22.000 2018-10-01 10:11:22.000 2018-10-01 10:11:12.000 
andi 1538359886000 1538359886000 1538359876000 
001 


1538359892000 1538359892000 1538359882000 
2018-10-01 10:11:32.000 2018-10-01 10:11:32.000 2018-10-01 10:11:22.000 


0 





2018-10-01 10:11:26.000 2018-10-01 10:11:26.000 2018-10-01 10:11:16.000 


到 这 里 ，Window 仍 然 没 有 被 触发 ， 此 时 
Watermark 的 时 间 已 经 等 于 第 一 条 数据 的 EventTime 
Jo MAWindowS EAT A MRAR E? 我 们 再 





次 输入 。 


[root@hadoop10e soft]# nc -1 9000 
0001, 1538359882000 
0001, 1538359886000 


9001 , 1538359892000 
9001 , 1538359893000 





输出 的 结果 如 图 8.11 所 示 。 





图 8.11 watermark 输 出 的 结果 


汇总 如 表 8.4 所 示 。 


表 8.4 Watermark 输 出 的 结 


2018-10-01 10:11:32.000 2018-10-01 10:11:32.000 2018-10-01 10:11:22.000 
人 1538359893000 1538359893000 1538359883000 
2018-10-01 10:11:33.000 2018-10-01 10:11:33.000 2018-10-01 10:11:23.000 


soni 1538359892000 1538359892000 1538359882000 





Window 仍 然 没 有 触发 ， 此 时 ， 我 们 的 数据 已 
经 发 到 2018-10-01 10:11:33.000 了。 根据 EventTime 
来 算 ， 距 离 最 早 的 数据 已 经 过 去 到 达 11s 了 ， 
Window 还 没有 开始 计算 ， 到 的 什么 时 候 会 触发 
Windowleé ? 


我 们 再 次 增加 1s， 输 入 。 


[root@hadoop1ee soft]# nc - 9000 
2001, 1538359882000 
0001 , 1538359886000 


9001 , 1538359892000 
9001 , 1538359893000 
9001 , 1538359894000 





输出 的 结果 如 图 8.12 所 示 。 





图 8.12 ”Watermark 输 出 的 结 


汇总 如 表 8.5 所 示 。 


表 8.5 ”Watermark 输 出 的 结 


; : window start window. end 


1538359882000 1538359882000 1538359872000 | | 
0001 | 9918-10-01 2018-10-01 

10:11:22.000 2018-10-01 10:11:22.000 | 70:11:12.000 

1538359886000 1538359886000 1538359876000 D ee 
0001 | 2018-10-01 2018-10-01 

10:11:26.000 2018-10-01 10:11:26.000 |10:11:16.000 


po 1538359892000 1538359892000 1538359882000 | 
0001 


2018-10-01 2018-10-01 

1538359893000 1538359893000 1538359883000 || 
0001 | 2018-10-01 2018-10-01 

10:11:33.000 2018-10-01 10:11:33.000 | 70:11:23.000 
图 1538359894000 1538359894000 1538359884000 eae ee 
0001 


2018-10-01 2018-10-01 
10:11:34.000 2018-10-01 10:11:34.000 10:11:24.000 [10:11:21.000 10:11:24. 000) 
y> x. J 人 AN 
到 这 里 ， 我 们 做 一 个 说 明 。 





Window 的 触及 机 制 是 先 按照 目 然 时 间 对 
Window 进 行 划分 ， 如 果 Window 的 大 小 是 3s， 那 么 
1min 内 会 把 Window 划 分 为 如 下 的 形式 《〈 左 闭 右 开 
的 区 间 ) 





[ 00:00:00, 00:00:03) 
[ 00:00:03, 00:00:06) 
[ 00:00:06, 00:00:09) 
[00:00:09,00:00:12) 
[00:00:12, 00:00:15) 


[00:00:15,00:00:18) 
[00:00:18, 00:00:21) 
[00:00:21,00:00:24) 
[00:00:24,00:00:27) 
[00:00:27,00:00:30) 
[900:00:30, 00:00:33) 
[00:00:33,00:00:36) 
[00:00:36,00:00:39) 
[00:00:39, 00:00:42) 
[00:00:42,00:00:45) 
[00:00:45,00:00:48) 
[00:00:48, 00:00:51) 
[00:00:51,00:00:54) 
[00:00:54,00:00:57) 
[00:00:57,00:01:00) 





Window 的 设 定 无 关 数 据 本 里 ， 而 是 系统 定义 
好 Hs 


输入 数据 时 ， 根 据 自 里 的 EventTime 将 其 划分 
到 不 同 的 Window 中 。 如 采 Window 中 有 数据 ， 则 当 
Watermark 时 间 江 ventTime 时 ， 束 符合 Window 触 发 
的 条 件 ， 但 最 终 是 否决 定 Window 触 发 ， 还 是 由 数 
据 本 里 的 EventTime 所 属 的 Window 中 的 


window end time 决 定 。 


上 面 的 测试 中 ， 最 后 一 条 数据 到 达 后 ， 其 水 位 
线 已 经 升 至 10:11:24， 正 好 是 最 早 的 一 条 记录 所 在 
Window 的 window_end_time， 所 以 Window 束 被 触 
RY o 


为 了 验证 Window 的 触发 机 制 ， 我 们 继续 输入 
数据 。 


[root@hadoop1ee soft]# nc - 9000 
2001, 1538359882000 
0001 , 1538359886000 


9001 , 1538359892000 
9001 , 1538359893000 
9001, 1538359894000 
9001 , 1538359896000 





输出 的 结果 如 图 8.13 所 示 。 





图 8.13 ”Watermark 输 出 的 结果 


汇总 如 表 8.6 所 示 。 


表 8.6 ”Watermark 输 出 的 结果 


time time 
[1538359882000 | [1538359882000 | (1538359872000 | 
0001 | 2018-10-01 2018-10-01 
a7 11:22.000 20 197 LOEO E L0; L1 22:000 E 11:12.000 
[1538359886000 | [1538359886000 | (1538359876000 | 
0001 | 2018-10-01 2018-10-01 
C 11:26.000 人 ee 11:16.000 
[1538359892000 | 1538359892000 | 1538359882000 | 
0001 | 9918-10-01 2018-10-01 
a 11:32.000 een CEN 11:22.000 


[1538359893000 | 1538359893000 | 1538359883000 | 
0001 | 2018-10-01 2018-10-01 
CEN 11:33.000 2019710701510: 1133:0009 CE 11:23.000 
[1538359894000 | [1538359894000 | (1538359884000 | 
0001 | 2018-10-01 2018-10-01 
mam ere 2018-10-01 10:11:34.000 ese aa oun [10:11:21.000 | 10:11:24.000) 
[1538359896000 | 1538359896000 | 1538359886000 | 
0001 | 2018-10-01 2018-10-01 
10:11:36.000 AOL O00 20009 10:11:26.000 





此 时 ，Watermark 时 间 虽 然 已 经 达到 了 第 二 条 
数据 的 时 间 ， 但 是 由 于 其 没有 达到 第 二 条 数据 所 在 
Window 的 结束 时 间 ， 因 此 Window 并 没有 被 触发 。 
第 二 条 数据 所 在 的 Window 时 间 区 间 如 下 。 


[00:00:24, 00:00:27) 


也 就 是 说 ， 必 须 输入 一 个 10:11:27 的 数据 ， 第 
二 条 数据 所 在 的 Window 才 会 被 触发 。 接 下 来 继续 
输入 数据 。 


[root@hadoop1e0e@ soft]# nc -1 9000 
0001, 1538359882000 
2001, 1538359886000 
0001, 1538359892000 


9001 , 1538359893000 
9001 , 1538359894000 
9001 , 1538359896000 
9001 , 1538359897000 





输出 的 结果 如 图 8.14 所 示 。 





图 8.14 ”Watermark 输 出 的 结 


汇总 如 表 8.7 所 示 。 


428.7 Watermark 输 出 的 结 


window_start_ | window_end_ 


Key EventTime CurrentMaxTimeStamp WaterMark time time 
[1538359882000 | 1538359882000 [1538359872000 | 
0001 
2018- 10-01 2018-10-01 
[1538359886000 | [1538359886000 | [1538359876000 | 
0001 
2018-10-01 2018-10-01 
[1538359892000 | [1538359892000 | [1538359882000 | 
0001 
ale 10-01 2018-10-01 


[1538359893000 [1538359893000 [1538359883000 | 
0001 
2018-10-01 2018-10-01 
[1538359894000 [1538359894000 [1538359884000 | 
0001 
2018-10-01 2018-10-01 
O ne 2018-10-01 10:11:34.000 ee eee [10:11:21.000 | 10:11:24.000) 
[1538359896000 [1538359896000 [1538359886000 | 
0001 
2018-10-01 2018-10-01 
[1538359897000 [1538359897000 [1538359887000 | 
0001 
2018-10-01 2018-10-01 
o ra 2018-10-01 10:11:37.000 [70112 000 [10:11:24.000 | 10:11:27.000) 





此 时 ， 我 们 已 经 看 到 ，Window 的 触发 要 符合 
以 下 几 个 条 件 。 


e Watermark 时 间 >window_end _ time。 
。 在 [window_start_time,window_end_time) 中 有 数 
据 存 在 《注意 是 左 闭 右 开 的 区 间 ) 








同时 满足 了 以 上 2 个 条 件 ，Window 才 会 触发 。 


8.3.3 利用 Watermark+Window 处 理 乱 序数 掘 


在 上 和 面 的 测 斌 中， 数据 都 是 按照 时 间 顺 序 递增 
的 。 现 在 ， 输 入 一 些 乱 序 的 (Late) 数据 ， 看 一 看 
Watermark 结 合 Window 机 制 是 如 何 处 理 乱 序 的 。 


输入 两 行 数据 。 


[root@hadoop1ee soft]# nc -1 9000 
2001, 1538359882000 
2001, 1538359886000 
2001, 1538359892000 
2001, 1538359893000 


9001 , 1538359894000 
9001 , 1538359896000 
9001 , 1538359897000 
9001 , 1538359899800 
9001 , 1538359891000 





输出 的 结果 如 图 8.15 所 示 。 





图 8.15 ”Watermark 输 出 的 结 


汇总 如 表 8.8 所 示 。 


表 8.8 ”Watermark 输 出 的 结果 


time time 
a 1538359882000 (1538359872000 | 
0001 | 2018-10-01 2018-10-01 
10:11:22.000 2018-10-01 10:11:22.000 | 70:11:12.000 


po 1538359886000 1538359886000 1538359876000 COo |e 
0001 


2018-10-01 2018-10-01 
10:11:26.000 eee 10:11:16.000 pf 


po 1538359892000 1538359892000 1538359882000 i) tf 
0001 


2018-10-01 2018-10-01 
10:11:32.000 ent 10:11:22.000 pf 


po 1538359893000 1538359893000 1538359883000 ry a || 
0001 


2018-10-01 2018-10-01 
10:11:33.000 2019710701510: 1133:0009 10:11:23.000 Pf 


po 1538359894000 1538359894000 1538359884000 ee 
0001 


2018-10-01 2018-10-01 
10:11:34.000 2018-10-01 10:11:34.000 10:11:24.000 [10:11:21.000 10:11:24.000) 


四 1538359896000 1538359896000 1538359886000 | 
0001 


2018-10-01 2018-10-01 
10:11:36.000 20 10 O00 10 OD 10:11:26.000 | 


四 1538359897000 1538359897000 1538359887000 a aaa 
0001 


2018-10-01 2018-10-01 
10:11:37.000 2018-10-01 10:11:37.000 10:11:27.000 [10:11:24.000 10:11:27.000) 


po 1538359899000 1538359899000 1538359889000 ae |e 
0001 


2018-10-01 2018-10-01 





pope 1538359891000 1538359899000 1538359889000 ee 
0001 


2018-10-01 2018-10-01 
10:11:31.000 2O LOEO LOT E000 10:11:29.000 Pf 


可 以 看 到 ， 虽 然 我 们 输入 了 一 个 10:11:31 的 数 
据 ， 但 是 currentMaxTimestamp 和 Watermark 都 没 


变 。 此 时 ， 按 照 上 面 提 到 的 公式 。 


e Watermarklhy |#]>window_end_time. 
e 7£[window_start_time,window_end_time)'# 4 2% 


据 存 在 。 


Watermark 时 间 (10:11:29) < 
window end time (10:11:33) ， 因 此 不 能 触发 
Window. 





如 果 再 次 输入 一 条 10:11:43 的 数据 ， 此 时 
Watermark 时 间 会 升 高 到 10:11:33， 这 时 的 Window 
一 定 会 触 友 。 我 们 试 一 试 ， 继 续 输 入 内 容 。 


[rootQhadoop166 soft]# nc -1 9000 
0001 , 1538359882000 
0001 , 1538359886000 
0001 , 1538359892000 
0001 , 1538359893000 
0001 , 1538359894000 


9001 , 1538359896000 
0001 , 1538359897000 
9001 , 1538359899000 
0001 , 1538359891000 
0001 , 1538359903000 





输出 的 结果 如 图 8.16 所 示 。 


)], currentMaxTimest amp 





图 8.16 ”Watermark 输 出 的 结果 


汇总 如 表 8.9 所 示 。 


表 8.9 Watermark 输 出 的 结果 


time time 
[1538359882000 | 1538359882000 [1538359872000 | 
0001 | 2018-10-01 2018-10-01 
7 2018510701 10; 1 [22:000 7 
[1538359886000 | [1538359886000 | [1538359876000 | 
0001 
2018-10-01 2018-10-01 
[1538359892000 | [1538359892000 | [1538359882000 | 
0001 | 2018-10-01 2018-10-01 
EE 一 一 


|1538359893000 | [1538359893000 | 1538359883000 | 
0001 
2018-10-01 2018-10-01 
|1538359894000 | 1538359894000 | [1538359884000 | 
0001 | 2018-10-01 2018-10-01 
CELIE PA ponm [10:11:21.000 |10:11:24.000) 
[1538359896000 | [1538359896000 | [1538359886000 | 
0001 
2018-10-01 2018-10-01 
10:11:36.000 AO LE L09 LORI E30 900 10:11:26.000 E 


1538359897000 1538359897000 1538359887000 





0001 
2018-10-01 2018-10-01 
10:11:37.000 2018-10-01 10:11:37.000 10:11:27.000 [10:11:24.000 10:11:27.000) 


pop 1538359899000 1538359899000 1538359889000 ly | ne, 
0001 


2018-10-01 2018-10-01 


1538359891000 1538359899000 1538359889000 a S| 
0001 

2018-10-01 2018-10-01 
alae 1538359903000 1538359903000 1538359893000 E) 
0001 


2018-10-01 2018-10-01 
10:11:43.000 2018-10-01 10:11:43.000 10:11:33.000 [10:11:30.000 10:11:33.000) 








这 里 可 以 看 到 ， 窗 口中 有 2 个 数据 : 10:11:31 
10:11:32， 但 是 没有 10:11:33 的 数据 ， 因 为 窗口 是 一 
前 闭 后 开 的 区 间 ，10:11:33 的 数据 是 属于 
[10:11:33,10:11:36) 这 个 窗口 的 。 








上 面 的 结果 已 经 表明 ，Flink 可 以 通 
Watermark 机 制 结合 Window 的 操作 i 范围 
内 的 乱 序数 据 。 那 么 对 于 Late Element (EIR 2K 
据 ) ，Flink 是 怎么 处 理 的 呢 ? 


8.3.4 Late Element 的 处 理 方 式 


针对 延迟 数据 ，Flink 有 3 种 处 理 方 案 。 


1. EF RU) 


输入 一 个 乱 序 的 〈 其 实 只 要 EventTime < 
Watermark 时 间 ) 数据 来 测试 。 





输入 两 行内 容 。 


[rootQ@hadoop166 soft]# nc -1 9000 


9001 , 1538359890000 
9001 , 1538359983000 





输出 的 结果 如 图 8.17 所 示 。 





图 8.17 Watermatk 输 出 的 结 


汇总 如 表 8.10 所 示 。 


表 8.10” Watermark 输 出 的 结果 


i 2 window_start window_end. 


1538359890000 1538359890000 1538359880000 a as 


0001 | 9918-10-01 2018-10-01 
10:11:30.000 20 1071059 ORLE 20:000 10:11:20.000 


1538359903000 1538359903000 1538359893000 | si 





0001 | 2018-10-01 2018-10-01 
10:11:43.000 POTO TOOT TO LEEN 10:11:33.000 


[10:11:30.000 10:11:33.000) 





注意 : 此 时 Watermark 是 2018-10-01 
10:11:33.000. 





下 面 再 输入 几 个 EventTime<Watermark 的 时 
间 。 


输入 3 行内 容 。 


[root@hadoop168 soft]# nc - 9000 
2001, 1538359890000 
2001, 1538359903000 


9001 , 1538359890000 
9001 , 1538359891000 
9001 , 1538359892000 





输出 的 结果 如 图 8.18 所 示 。 





图 8.18 ”Watermark 输 出 的 结果 


注意 : 此 时 并 没有 触及 Window。 因 为 输 
入 的 数据 所 在 的 窗口 已 经 执行 过 了 ，Flink 默 
认 对 这 些 延 迟 的 数据 的 处 理 方案 惑 是 丢 痉 。 








2. allowedLateness 指 定 人 允许 数据 延迟 的 时 间 


在 某 些 情况 下 ， 我 们 希望 为 延迟 的 数据 提供 一 
个 宽容 的 时 间 。 


Flink 提 供 了 allowedLateness 方 法 ， 它 可 以 实现 
对 延迟 的 数据 设置 一 个 延迟 时 间 ， 在 指定 延迟 时 间 
内 到 达 的 数据 可 以 触发 Window。 


修改 代码 如 图 8.19 所 示 。 





图 8.19 ”修改 代码 
下 面 来 验证 一 下 ， 输 入 2 行内 容 。 


[root@hadoop1ee soft]# nc -1 9000 
0001 , 1538359890000 
0001 , 1538359903000 





输出 的 结果 如 图 8.20 所 示 。 





图 8.20 “Watermark 输 出 的 结果 


这 里 正常 触发 了 Window。 


汇总 如 表 8.11 所 示 。 


表 8.11 Watermark 输 出 的 结果 


window_start_ | window_end_ 


Key EventTime CurrentMaxTimeStamp WaterMark : f 
time time 


ins 1538359890000 1538359890000 1538359880000 SE Sar 
0001 


oa | | 
Sa en ars a ae 
0001 
f H B A 
EET Watermark 2018-10-01 10:11:33.000, B 
么 现在 输入 几 条 EventTime<Watermark 的 数据 来 验 


证 一 下 效果 ， 输 入 3 行内 容 。 





[root@hadoop1ee soft]# nc - 9000 
0001 , 1538359890000 
0001 , 1538359903000 
2001, 1538359890000 
0001 , 1538359891000 
0001 , 1538359892000 





输出 的 结果 如 图 8.21 所 示 。 





图 8.21 Watermark 输 出 的 结果 


在 这 里 看 到 每 条 数据 都 触 友 了 Window 执 行 。 


汇总 如 表 8.12 上 所 示 。 


表 8.12 Watermark 输 出 的 结果 


window _start_ window_ end_ 


1538359890000 1538359890000 1538359880000 SSS 
0001 | 9918-10-01 2018-10-01 

10:11:30.000 2018-10-01 10:11:30.000 |10:11:20.000 
po 1538359903000 1538359903000 1538359893000 a | 
0001 


2018-10-01 2018-10-01 
10:11:43.000 2018-10-01 10:11:43.000 10:11:33.000 [10:11:33.000 10:11:33.000) 


po 1538359890000 1538359903000 1538359893000 SSS Seas 
0001 


2018-10-01 2018-10-01 
10:11:30.000 2018-10-01 10:11:43.000 10:11:33.000 [10:11:33.000 10:11:33.000) 


po 1538359891000 1538359903000 1538359893000 i 
0001 


2018-10-01 2018-10-01 
10:11:31.000 2018-10-01 10:11:43.000 10:11:33.000 [10:11:33.000 10:11:33.000) 


po 1538359892000 1538359903000 1538359893000 ia 
0001 


2018-10-01 2018-10-01 
10:11:32.000 2018-10-01 10:11:43.000 10:11:33.000 [10:11:33.000 10:11:33.000) 


我 们 再 输入 1 条 数据 ， 把 Watermark 调 整 到 
10:11:34. 





[rootQ@hadoop166 soft]# nc -1 9000 
0001 , 1538359890000 
0001 , 1538359903000 
0001 , 1538359890000 


9001 , 1538359891000 
9001 , 1538359892000 
9001 , 1538359904000 





输出 的 结果 如 图 8.22 所 示 。 


atermark 


atermark 


)], watermark 


atermark 


atermark 


atermark 





图 8.22 ”Watermark 输 出 的 结 


汇总 如 表 8.13 上 所 示 。 


表 8.13 ”Watermark 输 出 的 结果 


window_start 


1538359890000 1538359890000 1538359880000 ae 


0001 | 9918-10-01 2018-10-01 
10:11:30.000 een ene 10:11:20.000 


1538359903000 1538359903000 1538359893000 P| 


0001 | 9918-10-01 3018-10-01 
10:11:43000 2018-10-01 10:11:43.000 |10.11.33 000 [10:11:33.000 


1538359890000 1538359903000 1538359893000 o | 


0001 | 2018-10-01 3018-10-01 
joel cannes 2018-10-01 10:11:43.000 |10.11.33 000 [10:11:33.000 


1538359891000 1538359903000 1538359893000 o | 


1538359892000 1538359903000 1538359893000 (lad 


0001 | 9918-10-01 3018-10-01 
TEE 2018-10-01 10:11:43.000 |10.11.33 000 [10:11:33.000 


1538359904000 1538359904000 1538359894000 | 


0001 | 2018-10-01 2018-10-01 
10:11:44.000 Ca eee ns 10:11:34.000 


0001 | 9918-10-01 3018-10-01 
1041:31:000 2018-10-01 10:11:43.000 |7 0:11:33 000 [10:11:33.000 





此 时 ， 把 Watermark 上 升 到 了 10:11:34， 再 输入 
几 条 EventTime<Watermark 的 数据 来 验证 一 下 效 
果 ， 输 入 3 行内 容 。 


[rootQhadoop166 soft]# nc -1 9000 
6661,1538359896666 
6661,1538359963666 
6661,1538359896666 
0001,1538359891000 


0001,1538359892000 
0001,1538359904000 
0001,1538359890000 
0001,1538359891000 
0001,1538359892000 





输出 的 结果 如 图 8.23 所 示 。 





图 8.23 ”Watermark 输 出 的 结 


发 现 输入 的 3 行 数 据 都 触发 了 Window 的 执行 。 


我 们 再 输入 1 行 数 据 ， 把 Watermark 调 整 到 
10:11:35. 


[root@hadoop1ee soft]# nc - 9000 
2001, 1538359890000 
2001, 1538359903000 
2001, 1538359890000 
2001, 1538359891000 
2001, 1538359892000 


9001 , 1538359904000 
9001 , 1538359890000 
9001 , 1538359891000 
9001 , 1538359892000 
9001 , 1538359985000 





输出 的 结果 如 图 8.24 所 示 。 





8.24 Watermark 输 出 的 结果 


WERT, Watermark EFE!) 10:11:35. 


再 输入 几 条 EventTime<Watermark 的 数据 来 验 
证 一 下 效果 ， 输 入 3 条 数据 。 


[root@hadoop10e soft]# nc -1 9000 
0001 , 1538359890000 
0001 , 1538359903000 
0001 , 1538359890000 
0001 , 1538359891000 
0001 , 1538359892000 
0001 , 1538359904000 


9001 , 1538359898000 
9001 , 1538359891000 
0001 , 1538359892000 
9001 , 1538359905000 
9001 , 1538359898000 
9001 , 1538359891000 
0001 , 1538359892000 








输出 的 结果 如 图 8.25 所 示 。 





8.25 “Watermark 输 出 的 结果 


发 现 这 几 条 数据 都 没有 触发 Window。 


分 析 如 下 。 


。 当 Watermark 等 于 10:11:33 的 时 候 ， 正 好 是 
window_end_time， 上 所 以 会 触发 
[10:11:30~10:11:33) 的 Window 执 行 。 

。 当 窗口 执行 过 后 ， 我 们 输入 [10:11:30~10:11:33) 
这 个 Window 内 的 数据 ， 会 发 现 Window 是 可 以 
被 触发 的 。 

e 当 Watermark 提 升 到 10:11:34 的 时 候 ， 输 入 
[10:11:30~10:11:33) 这 个 Window 内 的 数据 ， 会 发 


现 Window 也 是 可 以 被 触发 的 。 

。 当 Watermark 提 升 到 10:11:35 的 时 候 ， 输 入 
[10:11:30~10:11:33) 这 个 Window 内 的 数据 ， 会 发 
现 Window 不 会 被 触发 。 


由 于 在 前 面 设置 了 
allowedLateness(Time.seconds(2))， 因 此 可 以 允许 延 
述 在 2s 内 的 数据 继续 触及 Window 执 行 。 当 
Watermark 为 10:11:34 时 可 以 触发 Window， 但 是 当 
Watermark 为 10:11:35 时 残 不 行 了 。 


总 结 如 下 。 











。 对 于 此 窗口 而 言 ， 人 允许 2s 的 延迟 时 间 ， 即 第 一 
次 触发 是 在 Watermark>window_end _ time 时 . 

。 第 二 次 《或 多 次 ) 触发 的 条 件 是 Watermark < 
window_end_time + allowedLateness， 这 个 窗口 


有 延迟 数据 到 达 时 。 





分 析 如 下 。 


。 当 Watermark 等 于 10:11:34 的 时 候 ， 输 入 
EventTime 为 10:11:30、10:11:31、10:11:32 的 数 
据 ， 是 可 以 触发 Window 的 ， 因 为 这 些 数据 的 
window_end_time 都 是 10:11:33， 也 就 是 
10:11:34<10:11:33+2 为 true。 

但 是 当 Watermark 等 于 10:11:35 的 时 候 ， 再 输入 
EventTime 为 10:11:30、10:11:31、10:11:32 的 数 
据 ， 这 些 数据 的 window_end_time 都 是 
10:11:33， 此 时 ，10:11:35<10:11:33+2 为 false， 
因此 最 终 这 些 数 据 延 迟 的 时 间 太 久 ， 就 不 会 再 
触发 Window 的 执行 操作 了 。 





3. sideOutputLateData 收 集 延 迟 数据 


通过 sideOutputLateData 函 数 可 以 把 延迟 数据 统 
一 收集 、 统 一 存储 ， 方 便 后 期 排查 问题 。 


需要 先 修改 代码 ， 如 图 8.26 所 示 。 


E 


getSide0utput 万 法 和 是 SingleOutputSstream0peratorT 十 从 人 ft dataStream。 


REEI ATAT, String> window = E E RE "8 
-window({ Tumb ingEventTimeWindows . of (Time. seconds ))// 按 照 消息 的 EventTime 窗口 ， 和 调用 TimeWindow 效 果 一 梯 


nds(2))// 人 允许 数据 迟到 2 和 


-apply(new WindowFunction<Tuple2<String, Long>, String, Tuple, TimeWindow>() { 


public void apply(Tuple tuple, TimeWindow window, Iterable<Tuple2<String, Long>> input, Collector<String| 
String key = tuple.toString(); 
List<Long> arrarList = new ArrayList<Long>(); 
Iterator<Tuple2<String, Long>> it = input.iterator(); 
BEIE (it -hasNext()) { 
Tuple2<String, Long> next = it.next(); 
arrarList.add(next.f1); 
} 
Collections.sort(arrarList) ; 
SimpleDateFormat sdf new SimpleDateFormat( pattern: ” -dd HH:m 
String result = key + "," + arrarList.size() + "," + sdf. format (arrarList.get(®)) + "," + sdf.format 
+ "," + sdf.format(window.getStart()) + "," + sdf.format (window. getEnd()); 


out.collect(result) ; 


window. TC 


= flink EHAN 
env.execute( jobName: 





图 8.26 ”修改 代码 
我 们 输入 两 行 数据 来 验证 一 下 。 


[root@hadoop168 soft]# nc - 9000 
2001, 1538359890000 
2001, 1538359903000 





输出 的 结果 如 图 8.27 所 示 。 


key:0001, eventtime: [1538359890000 |2018-10-01 10:11:30. 000], currentMaxTimestamp: [1538359890000 |2018-10-01 10:11:30. 000], watermark: [1538359880000 |2018-10-01 10:11:20. 000] 
key:0001, event time: [1538359903000 |2018-10-01 10:11:43. 000], currentMaxTimestamp: [1538359903000 |2018-10-01 10:11:43. 000], watermark: [1538359893000 |2018-10-01 10:11:33. 000] 


(0001), 1, 2018-10-01 10:11:30. 000, 2018-10-01 10:11:30. 000, 2018-10-01 10:11:30. 000, 2018-10-01 10:11:33. 000 





图 8.27 Watermark 输 出 结果 


此 时 ，Window 被 触发 执行 了 ，Watermark 是 
10:11:33. 


下 面 再 输入 3 行 EventTime<Watermark 的 数据 来 
进行 测试 。 


[root@hadoop168 soft]# nc -1 9000 
2001, 1538359890000 
2001, 1538359903000 


0001 , 1538359890000 
0001 , 1538359891008 
0001 , 1538359892000 





输出 的 结果 如 图 8.28 所 示 。 


key:0001, eventtime: [1538359890000 |2018-10-01 10:11:30. 000], currentMaxTimestamp: [1538359890000 |2018-10-01 10:11:30. 000], watermark: [1538359880000 |2018-10-01 10:11:20.000] 

key:0001, eventtime: [1538359903000 |2018-10-01 10:11:43. 000], currentMaxTimestamp: [1538359903000 |2018-10-01 10:11:43. 000], watermark: [1538359893000 |2018-10-01 10:11:33. 000] 
01 10:11:30. 000, 2018-10-01 10:11:30. 000, 2018-10-01 10:11:30. 000, 2018-10-01 10:11:33. 000 

key 0001, e: [1538359890000 [2018-10-01 10:11:30. 000], currentMaxTimestamp: [1538359903000 |2018-10-01 10:11:43. 000], watermark: [1538359893000 [2018-10-01 10:11:33. 000] 

(0001, 1538359890000) 


nt time [1538359891000 |2018-10-01 10:11:31. 000], currentMaxTimestamp: [1538359903000 |2018-10-01 10:11:43. 000], watermark: [1538359893000 |2018-10-01 10:11:33, 000] 


11:32. 000], currentMaxTimestamp: [1538359903000 |2018-10-01 10:11:43. 000], watermark: [1538359893000 |2018-10-01 10:11:33. 000] 





图 8.28 ”Watermark 输 出 的 结 


此 时 ， 这 几 条 延迟 的 数据 都 通过 


sideOutputLateData 保 存 到 了 outputTag 中 。 
8.3.5 ”在 多 并 行 度 下 的 Watermark 应 用 
前 面 的 代码 将 并 行 度 设置 为 1。 


env.setParallelism(1); 


如 果 这 里 不 设置 的 话 ， 代 码 在 IDEA 中 运行 的 
时 候 会 通过 默认 读 取 本 机 的 CPU 数量 来 设置 并 行 
上 度 。 把 并 行 度 注释 掉 的 代码 如 图 8.29 所 示 。 


// 设 置 并 行 度 为 1, 黑 认 并 行 度 是 当前 机 器 的 CPU 数量 
//env.setParallelism(1); 





图 8.29 ”注释 挥 并 行 度 的 代码 


然后 在 输出 内 容 前 面 加 上 线程 ID 信息 ， 如 图 
8.30 所 示 。 


enttime:["+element. |"+sdf. format (ele 
ri 


n seven! fi+" 
etCurrentWatermark().getTimestamp()+"|"+sdf. for} 





48.30 ”加 上 线程 ID 信息 





输入 如 下 7 行内 容 。 


[root@hadoop168 soft]# nc -1 9000 
2001, 1538359882000 
2001, 1538359886000 
2001, 1538359892000 


9001 , 1538359893000 
9001 , 1538359894000 
9001 , 1538359896000 
9001 , 1538359897000 





输出 的 结果 如 图 8.31 所 示 。 


currentThreadTd:64, key:0001, eventtime: [1538359882000 |2018-10-01 10:11:22.000], currentMaxTimestamp: [1538359882000 |2018-10-01 10:11:22. 000], watermark: [1538359872000|2018-10-01 10:11:12. 000] 
currentThreadId:51, key:0001, eventtime: [1538359886000 |2018-10-01 10:11:26. 000], currentMaxTimestamp: [1538359886000 |2018-10-01 10:11:26. 000], watermark: [1538359876000 |2018-10-01 10:11:16.000] 
currentThreadId:50, key:0001, eventtime: [1538359892000 |2018-10-01 10:11:32.000], currentMaxTimestamp: [1538359892000 |2018-10-01 10:11:32. 000], watermark: [1538359882000 |2018-10-01 10:11:22. 000] 
currentThreadId: 49, key:0001, eventtime: [1538359893000 |2018-10-01 10:11:33.000], currentMaxTimestamp: [1538359893000 |2018-10-01 10:11:33. 000], watermark: [1538359883000 |2018-10-01 10:11:23. 000] 


currentThreadId: 46, key:0001, eventtime: [1538359894000 |2018-10-01 10:11:34. 000], currentMaxTimestamp: [1538359894000 |2018-10-01 10:11:34. 000], watermark: [1538359884000 |2018-10-01 10:11:24. 000] 
currentThreadId: 44, key:0001, eventtime: [1538359896000 |2018-10-01 10:11:36. 000], currentMaxTimestamp: [1538359896000 |2018-10-01 10:11:36. 000], watermark: [1538359886000 |2018-10-01 10:11:26. 000] 
currentThreadId: 48, key:0001, eventtime: [1538359897000 |2018-10-01 10:11:37. 000], currentMaxTimestamp: [1538359897000 |2018-10-01 10:11:37. 000], watermark: [1538359887000 |2018-10-01 10:11:27. 000] 





图 8.31 Watermatk 输 出 的 结 


此 时 Window 没 有 被 触发 ， 因 为 这 7 条 数据 都 是 
被 不 同 的 线程 处 理 的 ， 每 个 线程 都 有 一 个 


Watermark. 


在 多 并 行 度 的 情况 下 ，Watermark 对 齐 机 制 会 


取 所 有 Channel 中 最 小 的 Watermark。 但 是 现在 默认 
有 8 个 并 行 度 ， 这 7 条 数据 都 被 不 同 的 线程 所 处 理 ， 
到 现在 还 没 获取 最 小 的 Watermarkk， 因 此 Window 无 
法 被 触 肥 执行 ， 如 图 8.32 所 示 。 





3 | z H 
> 数据 源 1 | 操作 1 a 窗口 1 
i 网 W83) mr 4 
生成 水 印 
生成 水 印 a 









N m pr 
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图 8.32 ”多 并 行 度 下 的 Watermark 


下 面 把 代码 中 的 并 行 度 调整 为 2， 如 图 8.33 上 所 
示 。 





// 设 置 并 行 度 为 1, 默 认 并 行 度 是 当前 机 器 的 CPU 数量 
env.setParallelism(2); 


图 8.33 ”修改 并 行 度 代码 


输入 如 下 内 容 。 


[root@hadoop168 soft]# nc - 9000 
2001, 1538359890000 


9001 , 1538359983000 
9001 , 1538359988000 





输出 的 结果 如 图 8.34 所 示 。 


01 10:11:30. 000], currentMaxTimestemp: [1538359890000 [2018-10-01 10:11:30. 000], waterm 5383598! 
1:43. 000], currentMaxTimestamp: [1538359903000 |2018-10- 





0:11:43. 0 
01 11:48. 000], currentMaxTimestamp F 538359908000 |2018-10-01 10:11:48. 00 0 © termark: [1538359898000 |2018-10-01 10:11:38.000 
0-01 10:11:30, 000, 2018-10-01 10:11:33, 000 


图 8.34 ”Watermark 输 出 的 结 


此 时 会 发 现 ， 当 第 3 条 数据 输入 完成 以 后 ， 
[10:11:30,10:11:33) 这 个 Window 被 触发 了 。 输 入 前 
两 条 数据 之 后 ， 获 取 的 最 小 Watermark 古 10:11:20， 
这 时 对 应 的 window 中 没有 数据 。 输 入 第 3 条 数据 之 
后 ， 获 取 的 最 小 Watermark 是 10:11:33， 这 时 对 应 的 

窗口 就 是 [10:11:30,10:11:33)， 所 以 就 触发 了 。 





8.3.6 With Periodic Watermarks 案 例 总 结 


Flink 应 该 如 何 设置 最 大 乱 序 时 间 ? 


。 要 结合 目 己 的 业务 以 及 数据 情况 进行 设置 。 如 
果 maxOutOfOrderness 设 置 得 大小， 而 目 吴 数据 
发 送 时 由 于 网 络 等 原因 导致 乱 序 或 者 延迟 太 
多 ， 那 么 最 终 的 结果 就 是 会 有 很 多 单条 的 数据 
在 Window 中 被 触发 ， 这 对 数据 的 正确 性 影响 太 
Te 

对 于 严重 乱 序 的 数据 ， 需 要 严格 统计 数据 最 大 
延迟 时 间 ， 这 样 才 能 保证 计算 的 数据 准确 。 延 
时 设置 得 太 小 会 影响 数据 的 准确 性 ， 延 时 设置 
得 太 大 不 仅 影响 数据 的 实时 性 ， 更 加 会 加 重 
Flink 作 业 的 负担 。 对 EventTime 要 求 不 是 特别 严 
格 的 数据 ， 尽 量 不 要 采用 EventTime 方 式 来 处 
理 ， 合 则 有 丢失 数据 的 风险 。 

















第 9 章 ”Flink 并 行 度 详解 


本 章 主 要 针对 Flink 中 的 并 行 度 进 行 详细 分 析 。 
Flink 中 的 并 行 度 设置 分 为 4 个 层面 : Operator 
Level 〈 算 子 层 面 ) . Execution Environment 
Level 〈 执 行 环境 层面 ) 、Client Level (4 F tine 
面 ) 和 System Level (系统 层面 ) 。 


9.1 Flink 并 行 度 


一 个 Flink 程 序 由 多 个 任务 (Sources 
Transformation 和 Sink) 组成。 一 个 任务 由 多 个 并 行 
实例 《线程 ) 来 执行 ， 一 个 任务 的 并 行 实 例 〈 线 
程 ) 数目 被 称 为 该 任务 的 并 行 度 。 


9.2 TaskManager 和 Slot 


Flink 的 每 个 TaskManager 为 集群 提供 Solt。Solt 
的 数量 通 第 与 每 个 TaskManager 闻 点 的 可 用 CPU 内 
核 数 成 比例 ， 一 般 情况 下 Slot 的 数量 就 是 每 个 节点 
的 CPU 的 核 数 ， 如 图 9.1 和 图 9.2 所 示 。 


线程 


TaskManager TaskManager 








Task Slot Task Slot | Task Slot 


线程 线程 











图 9.1 TaskManagerSlot (1) 
进程 


TaskManager TaskManager 


Task Slot | Task Slot 





















































线程 


图 9.2 ”TaskManager 与 Slot (2) 


93 “并行 度 的 设置 
一 个 任务 的 并 行 度 设置 可 以 从 4 个 层面 指定 。 


e Operator Level 〈 算 子 层 面 ) 。 

e Execution Environment Level 〈 执 行 环境 层 
ff) . 

e Client Level (XP mM) 。 

e System Level (系统 层面 ) 。 


这 些 并 行 度 的 优先 级 为 Operator 
Level>Execution Environment Level>Client 


Level>System Level. 
9.3.1 $f 47 it EŻ Operator Level 


Operator、Source 和 Sink 目 的 地 的 并 行 度 可 以 通 
过 调用 setParallelism() 方 法 来 指定 ， 参 考 代码 如 图 
9.3 所 示 。 

















图 9.3 设置 并 行 度 代码 (1) 


9.3.2 ”并 行 度 设置 之 Execution Environment 
Level 


任务 的 默认 并 行 度 可 以 通过 调用 
setParallelism() 方 法 指定 。 为 了 以 并 行 度 3 来 执行 所 
有 的 Operator、Source 和 Sink， 可 以 通过 如 下 方式 设 
置 执 行 环境 的 并 行 度 ， 如 图 9.4 所 示 。 


注意 : 执行 环境 Cenv) 的 并 行 度 可 以 通 
过 显 式 设置 算 子 的 并 行 度 来 重 写 。 








final StreamExecutionEnvironment env = StreamExecutionEnvironme 
env.setParallelism(3); 


DataStream<String> text = [...] 
DataStream<Tuple2<String, Integer>> wordCounts = [...] 
wordCounts.print(); 





env.execute("Word Count Example"); 





图 9.4 设置 并 行 度 代码 (2) 
9.3.3 “并行 度 设置 之 Client Level 


并 行 度 还 可 以 在 客户 端 提交 Job 人 到 Flink 时 设 
定 。 对 于 CLI 和 省 户 端 ， 可 以 通过 -p 参 数 指定 并 行 
FE 


这 里 表示 把 并 行 度 设置 为 10。 
9.3.4 ”并 行 度 设置 之 System Level 


在 系统 级 可 以 通过 设置 flink-conf.yaml 文 件 中 的 
parallelism.default 属 性 来 指定 所 有 执行 环境 的 默认 
J 


9.4 FITER HAAT 


Flink 集 群 的 基础 环境 如 图 9.5 所 示 。Flink 集 群 
中 有 3 个 TaskManager 节 点 ， 在 集群 的 flink-conf.yaml 
配置 文件 中 设置 taskmanager.numberOfTaskSlots 的 
值 为 3， 这 个 值 的 大 小 建议 和 节点 CPU 的 数量 保持 
— 
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图 9.5 Flink 集 群 基本 环境 分 析 


此 Flink 集 群 中 有 3 个 TaskManager 节 点 ， 每 个 节 
点 有 3 个 Slot。 


1. 案例 1 


如 图 9.6 所 示 ， 默 认 情 况 下 ，WordCount 任 务 的 
并 行 度 为 1， 它 从 flink-conf.yaml 文 件 中 读 取 
parallelism.default 参 数 的 默认 值 ， 此 时 只 占用 一 个 
Slot. 


TaskManager 2 TaskManager 3 
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当 没 有 提供 并 行 度 参 数 的 时 候 ， 上 默认 会 

使 用 flink-conf .yaml 文 件 中 的 
arallelism.default 参 数 的 值 ， 

这 个 参数 的 值 默 认为 1 


图 9.6 并行 度 案例 (1) 


2. 案例 2 


如 图 9.7 所 示 ，WordCount 任 务 的 并 行 度 为 2， 
可 以 通过 以 下 几 种 方式 来 实现 ， 此 时 占用 2 个 Slot。 


TaskManager 2 TaskManager 3 


— 
mill 


针对 任务 设置 并 行 度 
flink-conf.yaml: 
parallelism/default:2 
或 者 通过 Flink 客 户 端 设置 
./pin/flink-p 2 
或 者 通过 执行 环境 设置 

-| env.steParallelism(2) 

TaskManager 1 





eco) 
sso) 


anager 
DE 
ES 
—~ 一 一 、 
A 
educe 





图 9.7 并 行 度 案例 (2) 


(1) 修改 flink-conf.yaml 文 件 中 的 
parallelism.default 的 值 为 2。 


(2) 在 提交 任务 的 时 候 通 过 bin/flink -p 2 来 指 


定 。 
(3) 在 代码 中 通过 env.setParallelism(2) 来 指 
定 。 


3. 案例 3 


WordCount 任 务 的 并 行 度 为 9， 可 以 通过 以 下 几 
种 方式 来 实现 ， 此 时 占用 9 个 Slot。 


(1) 修改 flink-conf.yaml 文 件 中 的 
parallelism.default 的 值 为 9。 


(2) 在 提交 任务 的 时 候 通 过 bin/flink -p 9 来 指 


(3) 在 代码 中 通过 env.setParallelism(9) 来 指 


ry 


KE o 
4. 案例 4 


如 图 9.8 所 示 ，WordCount 任 务 的 并 行 度 为 9， 
但 是 Sink 组 件 的 并 行 度 为 1。 








此 时 ，Sink 组 件 的 并 行 度 需要 在 代码 中 通过 
setParallelism(1) 来 设置 。 


案例 4: 
WordCount 任 务 的 全 局 
并 行 度 为 9， 
sink 组 件 的 并 行 度 为 1 






TaskManager 1 


a 7 
= <> 
Source- 
flatMap 
—~ —™~ 
rr 
= 


通过 下 面 的 代码 设置 单个 组 件 的 并 行 度 D 


counts .writeAsCsv (outputPath, 
"\n","").setParallelism(1); 


TaskManager 2 TaskManager 3 











eso 





图 9.8 ”并 行 度 案 例 (3) 


第 10 章 ”Flink Kafka Connector‘ fi? 


Flink 提 供 了 很 多 Connector 组 件 ， 其 中 应 用 较 
广泛 的 就 是 Kafka 了 。 本 章 我 们 主要 和 针对 Kafka 
Connector 在 Flink 中 的 应 用 做 详细 的 分 析 。 


10.1 Kafka Connector 


处 理 Flink 的 Stream 数 据 时 ， 第 用 的 组 件 融 是 
Kafka。 源 数据 产生 后 会 被 采集 到 Kafka 中 ， 处 理 之 
后 的 数据 可 能 也 会 被 写 入 到 Kafka 中 。Kafka 可 以 作 
为 Flink 的 Source 和 Sink 来 使 用 ， 并 且 Kafka 中 的 
Partition 机 制 和 Flink 的 并 行 度 机 制 可 以 深度 结合 ， 
提高 数据 的 读 取 效 率 和 写 入 效率 。 当 任务 失败 的 时 
候 ， 可 以 通过 设置 Kafka 的 Offset 来 恢复 应 用 以 重新 
消费 数据 。 











想 要 在 Flink 中 使 用 Kafka， 需 要 添加 对 应 的 依 
i, [Al AKafka Connector 这 个 组 件 的 依赖 代码 没有 
集成 在 Flink 的 核心 代码 中 。 


<dependency> 
<groupId>org.apache.flink</groupId> 
<artifactId>flink-connector-kafka-0.11_2.11</artifa 


ctId> 
<version>1.6.1</version> 
</dependency> 





10.2 Kafka Consumer 


10.2.1 Kafka Consumer 消 费 策 略 设置 


Flink 从 Kafka 中 消费 数据 的 Java 代 人 码 如 下 。 





package xuwei.tech.streaming; 


import org.apache.Flink.api.common.serialization.Simple 
StringSchema; 

import org.apache.Flink.streaming.api.DataStream.DataSt 
reamSource; 

import org.apache.Flink.streaming.api.environment.Strea 
mExecutionEnvironment ; 

import org.apache.Flink.streaming.connectors.kafka.Flin 
kKafkaConsumer@11; 


import java.util.Properties; 


/** 

* kafkaSource 

* 

* Created by xuwei.tech 
ays 


public class StreamingKafkaSource { 


public static void main(String[] args) throws Excep 
tion { 
// 获 取 Flink 的 运行 环境 
StreamExecutionEnvironment env = StreamExecutio 
nEnvironment. 
getExecutionEnvironment() ; 


String topic = "t1"; 

Properties prop = new Properties(); 

prop.setProperty("bootstrap.servers", "hadoop110@ 
59092"); 

prop.setProperty("group.id", "con1") ; 


FlinkKafkaConsumer0@11<String> myConsumer = new 
FlinkKafkaConsumer@11<>(topic, 
new SimpleStringSchema(), prop); 


myConsumer.setStartFromGroupOffsets();//EKUGH 3? 
策略 

DataStreamSource<String> text = env.addSource(m 
yConsumer) ; 


text.print().setParallelism(1) ; 


env.execute("StreamingKafkaSource”" ) ; 


} 


Scala 代 码 如 下 。 





package xuwei.tech. streaming 


import java.util.Properties 


import org.apache.Flink.api.common.serialization.Simple 
StringSchema 

import org.apache.Flink.contrib.streaming.state.RocksDB 
StateBackend 

import org.apache.Flink.streaming.api.CheckpointingMode 
import org.apache.Flink.streaming.api.environment.Check 
pointConfig 

import org.apache.Flink.streaming.api.scala.StreamExecu 
tionEnvironment 

import org.apache.Flink.streaming.connectors.kafka.Flin 
kKafkaConsumer@11 


/** 
* Created by xuwei.tech 
*/ 


object StreamingKafkaSourceScala { 
def main(args: Array[String]): Unit = { 


val env = StreamExecutionEnvironment. getExecutionEn 
vironment 


// 隐 式 转换 


import org.apache.Flink.api.scala._ 


val topic = "ti" 
val prop = new Properties() 
prop.setProperty("bootstrap.servers", "hadoop11@: 909 


prop.setProperty("group.id", "con1") 


val myConsumer = new FlinkKafkaConsumer@11[ String ] ( 
topic,new SimpleStringSchema(), prop) 
val text = env.addSource(myConsumer ) 
text.print() 
env.execute("StreamingKafkaSourceScala ") 
} 
} 





在 这 里 分 析 Kafka Consumer 消 费 策略 。 
1. setStartFromGroupOffsets()“ 默 认 消 费 策 略 ) 


在 上 面 的 消费 代码 中 ， 我 们 设置 了 
myConsumer.setStartFromGroupOffsets()， 它 是 默认 
的 消费 策略 ， 会 读 取 上 次 消费 者 保存 的 Offset 信 
轧 。 如 宁 任 务 是 第 一 次 司 动 ， 读 取 不 到 上 次 的 
Offset 信 息 ， 则 会 根据 参数 auto.offset.reset 的 值 来 消 
P BUHE o 








2. setStartFromEarliest() 


从 最 初 的 数据 开始 进行 消费 ， 忽 略 存储 的 


Offset 信 息 。 
3. setStartFromLatest() 


从 最 新 的 数据 进行 消费 ， 忽 略 存 储 的 Offset 售 


z 
J&A O 


4. 
setStartFromSpecificOffsets(Map<KafkaTopicParti 


Long>) 





可 以 在 代码 中 指定 每 个 分 区 开始 读 取 的 Offset 
言 轧 ， 参 考 代 人 码 如 图 10.1 所 示 。 





Map<KafkaTopicPartition, Long> specificstartOffsets n 

specificStartOffsets.put(mew KafkaTopicPartition("myTopic”, ~ 

specificStartOffsets.put (new KafkaTopicPartition("myTopic”, - 

specificStartOffsets.put (new KafkaTopicPartition("myTopic"”, 2), 43L); 
tar 


myConsumer .setStartFromSpecificOffsets (specifics 


图 10.1 指定 Topic 每 个 分 区 的 Offset 信 息 


10.2.2 Kafka Consumer 的 容错 


当 CheckPoint 机 制 开 局 的 时 候 ，Kafka 
Consumer 会 定期 把 Kafka 的 Offset 信 息 以 及 其 他 
Operator 的 状态 信息 保存 起 来 。 当 Job 失 败 重 局 的 时 
候 ，FElink 会 从 最 近 一 次 的 CheckPoint 中 恢复 数据 ， 
重新 消费 Kafka 中 的 数据 。 





为 了 使 用 支持 容错 的 Kafka Consumer， 需 要 开 
启 CheckPoint， 可 以 通过 下 面 的 代码 开启 。 


env.enableCheckpointing(5000); // 开局 并 且 实 现 每 5s Check 


Point 一 次 





其 中 针对 Checkpoint 还 支持 以 下 配置 。 





//CheckPoint 的 相关 配置 

// 每 隔 5686ms 启 动 一 个 检查 点 〈 设 置 CheckPoint 的 周期 ) 
env.enableCheckpointing(50@@) ; 

// 设 置 模式 为 .EXACTLY_ONCE (默认 值 ) ， 还 可 以 设置 为 AT_LEAST_ 
ONCE 


env.getCheckpointConfig().setCheckpointingMode(Checkpoi 
ntingMode.EXACTLY_ONCE) ; 
// 确 保 检 查 点 之 间 有 至 少 66666ms 的 间隔 〈checkpoint 的 最 小 间隔 ) 





env. getCheckpointConfig().setMinPauseBetweenCheckpoints 
(500); 

// 检 得 点 必须 在 1min 内 完成 ， 或 者 被 丢弃 〈checkPoint 的 超时 时 间 
) 
env.getCheckpointConfig().setCheckpointTimeout(60000); 
// 同 一 时 间 只 允许 执行 一 个 检查 点 
env.getCheckpointConfig().setMaxConcurrentCheckpoints(1 
); 

// 表 示 Flink 处 理 程序 被 cancel 后 ， 会 保留 CheckPoint 数 据 ， 以 便 








根据 实际 需要 恢复 到 指定 的 CheckPoint 
env.getCheckpointConfig().enableExternalizedCheckpoints 
(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ 
ON_CANCELLATION) ; 

// 设 置 State 存 储 的 位 置 

env.setStateBackend(new RocksDBStateBackend("hdfs://had 
00p100: 9000/flink/checkpoints", true) ) ; 





10.2.3 ”动态 加 载 Topic 


使 用 Flink 消 费 Kafka 并 指定 Topic 数 据 的 时 候 ， 
可 以 通过 一 个 正则 表达 式 来 动态 恋 取 多 个 Topic 中 
的 数据 ， 代 码 如 图 10.2 所 示 。 





final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); 


Properties properties = mew PropertiesQ; 
properties.setProperty("bootstrap.servers", "localhost:9092"); 
properties.setProperty("group.id", “test"); 


FlinkKafkaConsumer011<String> myConsumer = new FlinkKafkaConsumer011<>( 
java.util.regex.Pattern.compile("test-topic-[0-9]"), 
new SimpleStringSchema(), 
properties); 


DataStream<String> stream = env.addSource(myConsumer ); 








图 10.2 ”动态 加 载 Topic 


由 于 主要 通过 Pattern.compile() 来 指定 一 个 
Topic 的 正则 表达 式 ， 因 此 这 样 只 要 是 满足 这 个 规 
则 的 Topic 的 数据 都 可 以 被 消费 。 


10.2.4 Kafka Consumer Offset H a) e722 





Kafka Consumer Offset 上 自动 提交 的 配置 需要 根 
据 Job 是 否 开 局 CheckPoint 来 区 分 。 


1. CheckPoint 天 闭 时 


可 以 通过 下 面 两 个 参数 配置 。 


enable.auto.commit: true 


auto.commit.interval.ms: 1000 





2. CheckPoint} JS Ft 


当 执 行 CheckPoint 的 时 候 才 会 保存 Offset， 这 样 


保证 了 Kafka 的 Offset 和 CheckPoint 的 状态 偏 移 量 保 
持 一 致 。 


可 以 通过 此 方法 设置 : 


setCommitOffsetsOnCheckpoints(true). 


这 里 的 参数 默认 就 是 true， 表 示 在 CheckPoint 的 
时 候 提 交 Offset， 些 时 Kafka 中 的 Offset 自 动 提交 机 


10.3 Kafka Producer 


10.3.1 Kafka Producer 的 使 用 


Flink 在 Kafka 中 生产 数据 的 Java 代 人 码 如 下 。 





package xuwei.tech.streaming; 


import org.apache.Flink.api.common.serialization.Simple 
StringSchema; 

import org.apache.Flink.streaming.api.DataStream.DataSt 
reamSource; 

import org.apache.Flink.streaming.api.environment.Strea 


mExecutionEnvironment ; 

import org.apache.Flink.streaming.connectors.kafka.Flin 
kKafkaProducer@11; 

import org.apache.Flink.streaming.util.serialization.Ke 
yedSerializationSchemaWrapper ; 


import java.util.Properties; 


/** 
* kafkaSink 
* Created by xuwei.tech 
*/ 
public class StreamingKafkaSink { 


public static void main(String[] args) throws Excep 
tion { 
// 获 取 Flink 的 运行 环境 
StreamExecutionEnvironment env = StreamExecutio 
nEnvironment. 
getExecutionEnvironment(); 


DataStreamSource<String> text = env.socketTextS 
tream("hadoop10e", 9001, "\n"); 


String brokerList = “hadoop116:9692 ; 
String topic = "t1"; 


Properties prop = new Properties(); 

prop.setProperty("bootstrap.servers",brokerList 
)3 

FlinkKafkaProducer@11<String> myProducer = new 
FlinkKafkaProducer@11<> 

(brokerList, topic, new SimpleStringSchema()) ; 


text. addSink(myProducer) ; 


env.execute("StreamingKafkaSink") ; 





Scala 代 人 码 如 下 。 





package xuwei.tech.streaming 


import java.util.Properties 


import org.apache.Flink.api.common.serialization.Simple 
StringSchema 

import org.apache.Flink.streaming.api.CheckpointingMode 
import org.apache.Flink.streaming.api.environment.Check 
pointConfig 

import org.apache.Flink.streaming.api.scala.StreamExecu 
tionEnvironment 

import org.apache.Flink.streaming.connectors.kafka.{Fli 
nkKafkaConsumer@11, FlinkKafkaProducer@11} 

import org.apache.Flink.streaming.util.serialization.Ke 
yedSerializationSchemaWrapper 


/** 
* Created by xuwei.tech 
f 
object StreamingKafkaSinkScala { 


def main(args: Array[String]): Unit = { 


val env = StreamExecutionEnvironment.getExecutionEn 
vironment 


// 隐 式 转换 


import org.apache.Flink.api.scala._ 
val text = env.socketTextStream("hadoop1@0" , 9001, ' \ 
val topic = "ti" 


val prop = new Properties() 
prop.setProperty("bootstrap.servers", "hadoop11@: 989 


FlinkKafkaProducer@11<String> myProducer = new Flin 
kKafkaProducer@11<> 
(brokerList, topic, new SimpleStringSchema() ); 
env.execute("StreamingKafkaSinkScala ") 


} 





10.3.2 Kafka Producer 的 容错 


10.3.1 市 中 的 代码 可 以 实现 把 数据 写 到 Kafka 
中 ， 但 是 不 支持 Exactly-once 语 义 ， 因 此 不 能 保证 
数据 的 绝对 安全 性 。 在 分 析 Kafka Producer 的 容错 
时 ， 需 要 根据 Kafka 的 不 同 版 本 分 别 进行 。 








1. Kafka 0.9 和 Kafka 0.10 


如 果 Elink 开 局 了 CheckPoint， 则 要 想 针 对 
FlinkKafkaProducer09 和 FlinkKafkaProducer010 可 以 
提供 At-least-once 的 语义 ， 还 需要 配置 下 面 两 个 参 
BX 


e setLogFailuresOnly(false). 
e setFlushOnCheckpoint(true). 


注意 : 建议 修改 Kafka 生 产 者 的 重 试 次 
数 ，retries 这 个 参数 的 默认 值 是 0， 可 以 将 其 改 
为 3。 





2. Kafka 0.11 


如 果 Flink 开 启 了 CheckPoint， 则 针对 
FlinkKafkaProducer011 吏 可 以 提供 Exactly-once 的 语 
MT. 


wind Be EIE A AS EY (ae FE LR OC, LEAF 
3 个 选项 。 


e Semantic.NONE. 
e Semantic.AT LEAST_ONCE( 默 认 )。 
e Semantic.EXACTLY ONCE. 





在 这 里 我 使 用 的 Kafka 是 基于 0.11 这 个 版 本 ， 如 
果 是 低 版 本 的 话 ， 有 一 些 特性 是 不 支持 的 ， 参 考 代 
人 码 如 下 。 





package xuwei.tech.streaming; 


import org.apache.Flink.api.common.serialization.Simple 
StringSchema; 
import org.apache.Flink.streaming.api.CheckpointingMode 


3 

import org.apache.Flink.streaming.api.DataStream.DataSt 
reamSource; 

import org.apache.Flink.streaming.api.environment.Check 
pointConfig; 

import org.apache.Flink.streaming.api.environment.Strea 
mExecutionEnvironment ; 

import org.apache.Flink.streaming.connectors.kafka.Flin 
kKafkaProducer@11; 

import org.apache.Flink.streaming.util.serialization.Ke 
yedSerializationSchemaWrapper ; 


import java.util.Properties; 


/** 
* kafkaSink 
* Created by xuwei.tech 
27 
public class StreamingKafkaSink { 


public static void main(String[] args) throws Excep 
tion { 
// 获 取 Flink 的 运行 环境 
StreamExecutionEnvironment env = StreamExecutio 
nEnvironment. getExecutionEnvironment(); 


//CheckPoint 配 置 

env.enableCheckpointing(50@Q) ; 

env.getCheckpointConfig().setCheckpointingMode( 
CheckpointingMode.EXACTLY_ONCE) ; 

env.getCheckpointConfig().setMinPauseBetweenChe 
ckpoints(5@0) ; 

env.getCheckpointConfig().setCheckpointTimeout ( 
60000); 

env.getCheckpointConfig().setMaxConcurrentCheck 
points(1); 

env.getCheckpointConfig().enableExternalizedChe 
ckpoints(CheckpointConfig. 

ExternalizedCheckpointCleanup.RETAIN_ON_CANCELL 
ATION); 


// 设 置 StateBackend 
env.setStateBackend(new RocksDBStateBackend("hd 


fs://hadoop100@:9000/flink/ 
checkpoints", true) ); 


DataStreamSource<String> text = env.socketTextS 
tream("hadoop10e", 9001, "\n"); 


String brokerList = “hadoop116 :9692 ; 
String topic = "t1"; 


Properties prop = new Properties(); 
prop.setProperty("bootstrap.servers",brokerList 


); 


// 这 个 构造 函数 不 支持 自 定 义 语义 

//FlinkKafkaProducer@11<String> myProducer = ne 
w FlinkKafkaProducer@11<> 

//(brokerList, topic, new SimpleStringSchema() ) 

// 注 意 : 在 使 用 Exactly-once 语 义 的 时 候 执行 代码 会 报错 
， 提 示 The transaction timeout 

//is larger than the maximum value allowed by t 
he broker， 因 为 Kafka 服 务 中 默认 事 

// 务 的 超时 时 间 是 15min， 但 是 FlinkKafkaProducer611 
中 的 事务 超时 时 间 默 认 是 1h。 

// 第 一 种 解决 方案 ， 设 置 FLinkKafkaProducer611 中 的 事 
务 超时 时 间 

//prop.setProperty("transaction.timeout.ms", 602 
00*15+""); 


// 第 二 种 解决 方案 ， 修 改 Kafka 的 server .properties 配 
置 文件 ， 设 置 Kafka 的 事务 超时 时 间 ， 修 
// 改 后 需要 重启 Kafka 集 群 服务 


// 这 个 构造 函数 支持 自 定义 语义 ， 使 用 Exactly-once 语 义 
的 Kafka Producer 

FlinkKafkaProducer@11<String> myProducer = new 
FlinkKafkaProducer@11<>(topic, 
new KeyedSerializationSchemaWrapper<String>(new SimpleS 


tringSchema()), prop, 

FlinkKafkaProducer@11.Semantic.EXACTLY_ONCE) ; 
text.addSink(myProducer) ; 
env.execute("StreamingKafkaSink" ) ; 





Scala 代 码 如 下 。 





package xuwei.tech. streaming 


import java.util.Properties 


import org.apache.Flink.api.common.serialization.Simple 
StringSchema 

import org.apache.Flink.streaming.api.CheckpointingMode 
import org.apache.Flink.streaming.api.environment.Check 
pointConfig 

import org.apache.Flink.streaming.api.scala.StreamExecu 
tionEnvironment 

import org.apache.Flink.streaming.connectors.kafka.{Fli 
nkKafkaConsumer@11, FlinkKafkaProducer@11} 

import org.apache.Flink.streaming.util.serialization.Ke 
yedSerializationSchemaWrapper 


/** 
* Created by xuwei.tech 
*/ 
object StreamingKafkaSinkScala { 


def main(args: Array[String]): Unit = { 


val env = StreamExecutionEnvironment. getExecutionEn 


vironment 


// 隐 式 转换 


import org.apache.Flink.api.scala._ 


//CheckPoint#t E. 

env.enableCheckpointing(50@@) ; 

env.getCheckpointConfig.setCheckpointingMode(Checkp 
ointingMode.EXACTLY_ONCE) ; 

env. getCheckpointConfig.setMinPauseBetweenCheckpoin 
ts(500) ; 

env.getCheckpointConfig.setCheckpointTimeout (6020 ) 
3 

env.getCheckpointConfig.setMaxConcurrentCheckpoints 
(1); 

env.getCheckpointConfig.enableExternalizedCheckpoin 
ts(CheckpointConfig.ExternalizedCheckpointCleanup.RETAI 
N_ON_CANCELLATION) ; 


// 设 置 StateBackend 
env.setStateBackend(new RocksDBStateBackend("hdfs:/ 
/hadoop100:9000/flink/checkpoints",true)); 


val text = env.socketTextStream("hadoop100" , 9001, '\ 
n') 

val topic = "ti" 

val prop = new Properties() 

prop.setProperty("bootstrap.servers", "hadoop11@:90@9 
2") 

// 第 一 种 解决 方案 ， 设 置 FlinkKafkaProducer811 中 的 事务 超 
时 时 间 

// 设 置 事务 超时 时 间 

//prop.setProperty("transaction.timeout.ms” ,60000*1 
5+" " ); 


// 第 二 种 解决 方案 ， 设 置 Kafka 的 最 大 事务 超时 时 间 


// 使 用 支持 Exactly-once 语 义 的 形式 

val myProducer = new FlinkKafkaProducer@11[ String ] ( 
topic,new KeyedSerializationSchemaWrapper 
[String](new SimpleStringSchema()), prop, FlinkKafkaPro 
ducer@11.Semantic.EXACTLY_ONCE) 

text.addSink(myProducer) 


env.execute("StreamingKafkaSinkScala ") 


} 
} 





第 11 章 ”Flink 实 战 项 目 开 发 


本 章 主要 针对 Flink 的 一 些 实战 应 用 场景 进行 分 
析 ， 包 含 架构 设计 和 代码 实现 。 在 这 里 主要 介绍 两 
个 应 用 场景 : 一 个 是 实时 数据 清洗 ， 也 称 为 实时 
ETL; 为 一 个 是 实时 数据 报表 。 








11.1 实时 数据 清洗 〈 实 时 ETL) 
11.1.1 需求 分 析 


假设 目前 公司 中 有 四 五 百 台 前 端 业务 机 器 ， 每 
天 产生 TI 级 别 的 业务 日 志 数据 。 由 于 业务 原因 ， 我 
们 把 十 几 种 类 型 的 日 志 数 据 都 通过 一 个 接口 进行 日 
志 记 录 。 这 些 日 志 数 据 中 的 个 别 字 段 需要 进行 转换 
[如 国家 〈 地 区 ) 和 大 区 之 前 的 关系 ， 一 个 大 区 对 
应 多 个 国家 (地 区 ) 码 ， 因 为 大 区 和 国家 (地 区 ) 











的 对 应 关系 会 变动 ， 所 以 日 志 中 存储 的 是 国家 (地 
X) 码 ， 在 具体 使 用 的 时 候 需 要 转换 ]， 并 且 最 好 
根据 类 型 分 开 统 计 这 些 日 志 数 据 ， 这 样 可 以 提高 后 
面 计算 程序 的 效率 ， 因 此 需要 对 源 日 志 数 据 进 行 转 
换 ， 并 且 根 据 数 据 类 型 分 开 存 储 数据 。 


11.1.2 项目 架构 设计 


实时 数据 清洗 项 目 染 构 如 图 11.1 所 示 。 


对 数据 进行 抽取 转换 
Flink 


in 












把 不 同类 型 的 数据 
分 别 存储 到 HDFS 的 
不 同 目录 下 

恪 式 : 2019101/typel 





图 11.1 实时 数据 清洗 项 目 架 构 


项 目 架 构 分 析 如 下 。 


e (Flume X42 AT Yin US ALAS COM HARA as) 上 


的 日 志 数 据 ， 使 用 Exec Source 监 控 指 定 文件 日 
志 数 据 的 产生 。 在 这 里 注意 ， 需 要 使 用 tail -F， 
而 不 是 tail -f， 否 则 会 寻 致 文件 重 命 名 后 无 法 采 
集 新 文件 中 的 数据 。 
通过 Flume 把 机 器 中 的 日 志 数 据 采 集 到 Kafka 中 
的 一 个 Topic 中 ，Topic 的 名 称 是 allData。 
通过 Flink 读 取 Kafka 中 的 allData 进 行 实时 转换 。 
首先 需要 对 数据 进行 拆 分 ， 因 为 原始 日 志 数 据 
we “MKESISON, RII i BIE HR EISON WET Ht 
分 。 然 后 再 从 Redis 中 获取 最 新 的 大 区 和 国家 
(地 区 ) 码 之 间 的 映射 关系 ， 在 日 志 中 增加 大 
区 字段 。 在 这 里 需要 用 Flink 中 的 Connect 操 作 把 
原始 日 志 数 据 和 Redis 中 的 大 区 国家 《地 区 ) 1 
映射 关系 数据 关联 到 一 起 。 














。 数据 解析 完成 后 ， 通 过 FlinkKafkaProducer011 把 


数据 写 到 Kafka 中 的 allDataClean 中 。 
这 时 所 有 类 型 的 数据 都 存储 到 Kafka 中 的 


allDataClean 了 ， 为 了 减轻 之 后 实时 计算 程序 的 
压力 ， 最 好 把 数据 拆 分 开 ， 不 同类 型 的 数据 存 
储 到 不 同 的 Topic 中 。 在 日 志 中 有 一 个 Type 字 
段 ， 根 据 这 个 字段 的 值 可 以 把 数据 分 开 存储 。 
Flume 使 用 RegexExtractorInterceptor 拦 截 吉 来 实 
现 这 个 功能 ， 提 取 Type 字 段 ， 可 以 在 指定 Sink 
Topic 的 时 候 使 用 这 个 提取 的 变量 字段 。 这 部 分 
数据 主要 是 为 了 给 后 面 的 其 他 实时 计算 程序 提 
供 数 据 。 

。 为 了 后 期 可 以 对 数据 进行 离线 计算 ， 在 这 里 通 
过 Flume 对 数据 进行 分 类 沙盘 操作 ， 使 用 
RegexExtractorInterceptorf— $k z> +e WT ype T Ex, 
把 不 同类 型 的 数据 存储 到 HDFS 的 不 同 目录 下 。 














11.1.3 ”项目 代码 实现 
实时 数据 清洗 的 基本 环境 说 明 如 下 。 


。 Kafka 集 群 机 器 信息 : kafka01、kafka02、 
kafka03、kafka04、kafka05。 
。 ZooKeeper 集 群 信息 : zookeeper01、 


zookeeper02. zookeeper03. zookeeper04, 
zookeeper05. 
。Hadoop 集 群 信息 : hadoop01. hadoop02, 
hadoop03. hadoop04. hadoop05. 
。Redis 节 点 信息 : redis01。 


注意 : 针对 项 目 中 使 用 的 相关 框架 的 安 
冯 和 部 普 步 骤 在 这 里 不 再 痪 述 。 








使 用 Flume 将 前 问 业 务 机 器 的 日 志 数 据 采 和 集 到 
KafkafJallData'# 。 


注意 : 这 里 使 用 的 Flume 版 本 是 1.8。 





Flume 的 配置 文件 file-kafka-allData.conf 的 内 容 


如 下 。 





#Source 的 名 字 

al.sources = fileSource 

# Channel 的 名 字 

al.channels = memoryChannel 
# Sink 的 名 字 

al.sinks = kafkaSink 


# 指定 Source 使 用 的 Channe1 名 字 
al.sources.fileSource.channels = memoryChannel 
# 指定 Sink 需 要 使 用 的 Channe1 的 名 字 
al.sinks.kafkaSink.channel = memoryChannel 


# Source 相 关 配 置 

al.sources.fileSource.type = exec 
al.sources.fileSource.command = tail -F /data/log/allDa 
ta.log 


# Channel 相 关 配 置 

al.channels.memoryChannel.type = memory 
a1.channels.memoryChannel.capacity = 1000 
a1.channels.memoryChannel.transactionCapacity = 1000 
a1.channels.memoryChannel.byteCapacityBufferPercentage 
= 20 

a1.channels.memoryChannel.byteCapacity = 800000 


# Sink 相 关 配 置 

al.sinks.kafkaSink.type = org.apache.flume.sink.kafka.K 
afkaSink 

al.sinks.kafkaSink.kafka.topic = allData 
a1.sinks.kafkaSink.kafka.bootstrap.servers= kafka01:909 
2,kafka@2:9092,kafkaQ3 :9092 
al.sinks.kafkaSink.kafka.flumeBatchSize = 20 


al.sinks.kafkaSink.kafka.producer.acks = 1 
al.sinks.kafkaSink.kafka.producer.linger.ms = 1 
al.sinks.kafkaSink.kafka.producer.compression.type = sn 
appy 





Flink 实 时 解析 转换 程序 代码 的 具体 步骤 如 下 。 


C1) 首先 添加 相关 Maven 依 赖 。 





<dependencies> 
<dependency> 
<groupId>org.apache. flink</groupId> 
<artifactId>flink-java</artifactId> 
<version>1.6.1</version> 
<!-- provided 在 这 里 表示 此 依赖 只 在 代码 编译 的 时 候 使 
用 ， 运 行 和 打包 的 时 候 不 使 用 --> 
<!--<scope>provided</scope>--> 
</dependency> 
<dependency> 
<groupId>org.apache. flink</groupId> 
<artifactId>flink-streaming-java_2.11</artifact 
Id> 
<version>1.6.1</version> 
<!--<scope>provided</scope>--> 
</dependency> 
<dependency> 
<groupId>org.apache. flink</groupId> 
<artifactId>flink-scala_2.11</artifactId> 
<version>1.6.1</version> 
<!--<scope>provided</scope>--> 
</dependency> 
<dependency> 


<groupId>org.apache. flink</groupId> 
<artifactId>flink-streaming-scala_2.11</artifac 
tId> 
<version>1.6.1</version> 
<!--<scope>provided</scope>--> 
</dependency> 


<dependency> 
<groupId>org.apache.bahir</groupId> 
<artifactId>flink-connector-redis 2.11</artifac 
tId> 
<version>1.@</version> 
</dependency> 


<dependency> 
<groupId>org.apache. flink</groupId> 
<artifactId>flink-statebackend-rocksdb 2.11</ar 
tifactId> 
<version>1.6.1</version> 
</dependency> 


<dependency> 
<groupId>org. apache. flink</groupId> 
<artifactId>flink-connector-kafka-@.11 2.11</ar 
tifactId> 
<version>1.6.1</version> 
</dependency> 


<dependency> 
<groupId>org.apache.kafka</groupId> 
<artifactid>kafka-clients</artifactId> 
<version>@.11.0.3</version> 

</dependency> 

<!-- 日 志 相 关 依 赖 --> 

<dependency> 
<groupId>org.slf4j</groupId> 


<artifactId>slf4j-api</artifactId> 
<version>1.7.25</version> 
</dependency> 


<dependency> 
<groupId>org.slf4j</groupId> 
<artifactIid>slf4j-1log4j12</artifactId> 
<version>1.7.25</version> 

</dependency> 

<!-- Redis 依 赖 --> 

<dependency> 
<groupId>redis.clients</groupId> 
<artifactId>jedis</artifactId> 
<version>2.9.0</version> 

</dependency> 

<!-- JSON 依 赖 --> 

<dependency> 
<groupId>com.alibaba</groupId> 
<artifactid>fastjson</artifactId> 
<version>1.2.44</version> 

</dependency> 

</dependencies> 





(2) 因为 需要 从 Redis 中 读 取 数据 ， 所 以 需要 
目 定 义 RedisSource。 





在 自 定 义 RedisSource 之 前 ， 需 要 先 在 Redis 数 
据 库 中 进行 数据 初始 化 ， 主 要 是 为 了 在 Redis 中 保存 
国家 和 大 区 的 对 应 关系 。 在 后 面 使 用 的 时 候 需 要 把 


RAK DX AT MK AB ZA 2S Java A) HashMap . 


在 Redis 数 据 库 中 执行 以 下 命令 。 


hset areas AREA_US US 
hset areas AREA_AR PK,KW,SA 





hset areas AREA_IN IN 


Java 代 人 码 实 现 如 下 。 





package xuwei.tech.source; 


import org.apache.Flink.streaming.api.functions.source. 
SourceFunction; 

import org.slf4j.Logger; 

import org.slf4j.LoggerFactory; 

import redis.clients.jedis.Jedis; 

import redis.clients.jedis.exceptions.JedisConnectionEx 
ception; 

import java.util.HashMap; 

import java.util.Map; 


/** 
* Created by xuwei.tech 
*/ 
public class MyRedisSource implements SourceFunction<Ha 
shMap<String,String>> { 
private Logger logger = LoggerFactory.getLogger(MyR 
edisSource.class); 


private final long SLEEP_MILLION = 60000; 


private boolean isRunning = true; 
private Jedis jedis = null; 


public void run(SourceContext<HashMap<String, Strin 
g>> ctx) throws Exception { 


this.jedis = new Jedis("redis@1", 6379); 
// 存 储 所 有 国家 和 大 区 的 对 应 关系 
HashMap<String, String> keyValueMap = new HashM 
ap<String, String>(); 
while (isRunning) { 
try{ 
keyValueMap.clear(); 
Map<String, String> areas = jedis.hgetA 
l1l("areas"); 
for (Map.Entry<String,String> entry: ar 
eas.entrySet()) { 
String key = entry.getKey(); 
String value = entry.getValue(); 
String[] splits = value.split(","); 
for (String split: splits) { 
keyValueMap.put(split, key) ; 
} 
} 
if (keyValueMap.size()>@){ 
ctx.collect(keyValueMap) ; 
yelse{ 
logger.warn(" 从 Redis 中 获取 的 数据 为 空 
下 
} 
Thread.sleep(SLEEP MILLION); 
}catch (JedisConnectionException e){ 
logger .error("Redis 链 接 异 常 ， 重 新 获取 链接 
",e.getCause()); 
jedis = new Jedis("redis@1", 6379); 


}catch (Exception e){ 
logger.error("Source 数 据 源 异常 ",e.getCau 
se()); 


public void cancel() { 
isRunning = false; 

if (jedis!=null1){ 
jedis.close(); 





Scala 代 码 实 现 如 下 。 





package xuwei.tech. source 


import org.apache.Flink.streaming.api.functions.source. 
SourceFunction 

import org.apache.Flink.streaming.api.functions.source. 
SourceFunction.SourceContext 

import org.slf4j.LoggerFactory 

import redis.clients.jedis.Jedis 

import redis.clients.jedis.exceptions.JedisConnectionEx 
ception 


import scala.collection.mutable 


/** 


* Created by xuwei.tech 

4 
class MyRedisSourceScala extends SourceFunction[mutable 
.Map[String,String]]{ 


val logger = LoggerFactory.getLogger("MyRedisSourceSc 
ala") 


val SLEEP_MILLION = 60000 


var isRunning = true 
var jedis: Jedis = _ 


override def run(ctx: SourceContext[mutable.Map[Strin 
g, String]]) = { 
this.jedis = new Jedis("redis@1", 6379) 
// 隐 式 转换 ， 把 Java 的 HashMap 转 为 Scala 的 Map 
import scala.collection.JavaConversions.mapAsScalaM 
ap 
// 存 储 所 有 国家 和 大 区 的 对 应 关系 
var keyValueMap = mutable.Map[String, String ]() 
while (isRunning){ 
try{ 
keyValueMap.clear() 
keyValueMap = jedis.hgetAll("areas" 


for( key <- keyValueMap.keys.toList) { 
val value = keyValueMap.get(key).get 
val splits = value.split(",") 
for(split <- splits){ 
keyValueMap += (key -> split) 
} 
} 


if (keyValueMap.nonEmpty) { 
ctx.collect(keyValueMap ) 


yelse{ 
logger.warn(" 从 Redis 中 获取 的 数据 为 空 ! ! !") 


上 
Thread.sleep(SLEEP_MILLION) ; 
}catch { 
case e: JedisConnectionException => { 
logger .error("Redis 链 接 异 常 ， 重 新 获取 链接 "，e.8g 
etCause) 
jedis = new Jedis("redis@1", 6379) 
} 
case e: Exception => { 
logger .error("Source 数 据 源 异 常 "，e.getCause) 








override def cancel() = { 
isRunning = false 
if(jedis!=null){ 
jedis.close() 





(3) 实现 Flink 数 据 转 换 任 务 。 





注意 : 此 处 代码 实现 了 CheckPoint 和 


StateBackend 的 相关 配置 。 








需要 提前 在 Kafka 中 创建 需要 的 Topic， 创 建 命 
SUF 


bin/kafka-topics.sh --create --topic allData --zookeep 
er zookeeper@1:2181-- 

partitions 5 --replication-factor 1 

bin/kafka-topics.sh --create --topic allDataClean --zo 
okeeper zookeeper@1: 2181-- 

partitions 5 --replication-factor 1 





Java 代 码 实 现 如 下 。 





package xuwei.tech; 


import com.alibaba.fastjson. JSONArray; 

import com.alibaba.fastjson.JSONObject; 

import org.apache.Flink.api.common.serialization.Simple 
StringSchema; 

import org.apache.Flink.contrib.streaming.state.RocksDB 
StateBackend; 

import org.apache.Flink.streaming.api.CheckpointingMode 
3 

import org.apache.Flink.streaming.api.DataStream.DataSt 
ream; 

import org.apache.Flink.streaming.api.DataStream.DataSt 


reamSource; 

import org.apache.Flink.streaming.api.environment.Check 
pointConfig; 

import org.apache.Flink.streaming.api.environment.Strea 
mExecutionEnvironment ; 

import org.apache.Flink.streaming.api.functions.co.CoFl 
atMapFunction; 

import org.apache.Flink.streaming.connectors.kafka.Flin 
kKafkaConsumerQ@11; 

import org.apache.Flink.streaming.connectors.kafka.Flin 
kKafkaProducer@11; 

import org.apache.Flink.streaming.util.serialization.Ke 
yedSerializationSchemaWrapper ; 

import org.apache.Flink.util.Collector; 

import xuwei.tech.source.MyRedisSource; 


import java.util.HashMap; 
import java.util.Properties; 


/** 
* 数据 转换 清洗 
* Created by xuwei.tech 
*/ 

public class DataClean { 


public static void main(String[] args) throws Excep 
tion{ 
StreamExecutionEnvironment env = StreamExecutio 
nEnvironment. getExecutionEnvironment() ; 


// 修 改 并 行 度 


env.setParallelism(5); 


//CheckPoint 配 置 
env.enableCheckpointing (6000) ; 
env.getCheckpointConfig().setCheckpoint ingMode( 


CheckpointingMode.EXACTLY_ONCE) ; 
env.getCheckpointConfig().setMinPauseBetweenChe 
ckpoints(300@@) ; 
env.getCheckpointConfig().setCheckpoint Timeout ( 
10000) ; 
env.getCheckpointConfig().setMaxConcurrentCheck 
points(1); 
env.getCheckpointConfig().enableExternalizedChe 
ckpoints(CheckpointConfig.ExternalizedCheckpointCleanup 
RETAIN _ON_CANCELLATION) ; 


//¥ 8 StateBackend 


//env.setStateBackend(new RocksDBStateBackend(" 
hdfs://hadoop@1: 9000/flink/checkpoints", true) ) ; 


// 指 定 KafkaSource 

String topic = "allData"; 

Properties prop = new Properties(); 

prop.setProperty("bootstrap.servers", "kafkaQ@1:9 
Q92,kafkaQ@2:9092") ; 

prop.setProperty("group.id", "con1") ; 

FlinkKafkaConsumer@11<String> myConsumer = new 
FlinkKafkaConsumer@11<String>(topic, new SimpleStringSc 
hema(), prop); 


// 获 取 Kafka 中 的 数据 

//{"dt":"2019-01-@1 11:11:11", “countryCode":"US 
","data":[{"type":"si","score":0.3, "level": "A"},{"type" 
>"s2","score":0.1,"level":"B"}]} 

DataStreamSource<String> data = env.addSource(m 
yConsumer) ; 


// 最 新 的 国家 码 和 大 区 的 映射 关系 


DataStream<HashMap<String, String>> mapData = e 


nv.addSource(new MyRedisSource()).broadcast();// 可 以 把 数 
据 发 送 到 后 的 算 子 的 所 有 并 行 实例 中 


DataStream<String> resData = data.connect(mapDa 
ta).flatMap(new CoFlatMapFunction<String, HashMap<Strin 
g, String>, String>() { 

// 存 储 国 家 和 大 区 的 映射 关系 
private HashMap<String, String> allMap = ne 
w HashMap<String, String>(); 
//flatMap1 处 理 的 是 Kafka 中 的 数据 
public void flatMap1(String value, Collecto 
r<String> out) throws Exception { 
JSONObject jsonObject = JSONObject.pars 
eObject (value) ; 
String dt = jsonObject.getString("dt") ; 
String countryCode = jsonObject.getStri 
ng("countryCode" ) ; 
// 获 取 大 区 
String area = allMap.get(countryCode) ; 


JSONArray jsonArray = jsonObject.getJSO 
NArray("data"); 
for (int i = ð; i < jsonArray.size(); i 


+) { 
JSONObject jsonObject1 = jsonArray. 
getJSONObject(i) ; 
jsonObject1.put("area", area); 
jsonObject1.put("dt", dt); 
out.collect(jsonObject1.toJSONStrin 
g()); 


} 


//flatMap2 处 理 的 是 Redis 返 回 的 Map 类 型 的 数据 
public void flatMap2(HashMap<String, String 


> value, Collector<String> out) throws Exception { 
this.allMap = value; 


} 
}); 


String outTopic = "allDataClean"; 

Properties outprop = new Properties(); 

outprop .setProperty("bootstrap.servers" "kafka6 
1:9092,kafkaQ@2:9092") ; 

// 第 一 种 解决 方案 ， 设 置 FlinkKafkaProducer811 中 的 事 
务 超时 时 间 

//prop.setProperty("transaction.timeout.ms", 60@ 
00*15+""); 


// 第 二 种 解决 方案 ， 设 置 Kafka 的 最 大 事务 超时 时 间 


FlinkKafkaProducer@11<String> myProducer = new 
FlinkKafkaProducer@11<String>(outTopic, new KeyedSerial 
izationSchemaWrapper<String>(new SimpleStringSchema()), 

outprop, 
FlinkKafkaProducer@11.Semantic.EXACTLY_ONCE) ; 
resData.addSink(myProducer) ; 


env.execute("DataClean") ; 





Scala 代 码 实 现 如 下 。 





package xuwei.tech 


import java.util.Properties 


import com.alibaba.fastjson.{JSON, JSONObject} 

import org.apache.Flink.api.common.serialization.Simple 
StringSchema 

import org.apache.Flink.contrib.streaming.state.RocksDB 
StateBackend 

import org.apache.Flink.streaming.api.CheckpointingMode 
import org.apache.Flink.streaming.api.environment.Check 
pointConfig 

import org.apache.Flink.streaming.api.functions.co.CoFl 
atMapFunction 

import org.apache.Flink.streaming.api.scala.StreamExecu 
tionEnvironment 

import org.apache.Flink.streaming.connectors.kafka.{Fli 
nkKafkaConsumer@11, FlinkKafkaProducer@11} 

import org.apache.Flink.streaming.util.serialization.Ke 
yedSerializationSchemaWrapper 

import org.apache.Flink.util.Collector 

import xuwei.tech.source.MyRedisSourceScala 


import scala.collection.mutable 


[** 
* Created by xuwei.tech 
i 

object DataCleanScala { 


def main(args: Array[String]): Unit = { 
val env = StreamExecutionEnvironment. getExecutionEn 
vironment 


// 修 改 并 行 度 


env.setParallelism(5) 


//checkPoint fc. 
env.enableCheckpointing (6000@) 
env.getCheckpointConfig. setCheckpointingMode(Checkp 


ointingMode.EXACTLY_ONCE) 

env. getCheckpointConfig.setMinPauseBetweenCheckpoin 
ts (30000) 

env.getCheckpointConfig. setCheckpointTimeout (100@@ ) 

env.getCheckpointConfig.setMaxConcurrentCheckpoints 
(1) 

env.getCheckpointConfig.enableExternalizedCheckpoin 
ts(CheckpointConfig.ExternalizedCheckpointCleanup.RETAI 
N_ON_CANCELLATION) 


// 设 置 StateBackend 


//env.setStateBackend(new RocksDBStateBackend("hdfs 
://hadoop01:9000/Fflink/checkpoints", true) ) 

// 隐 式 转换 

import org.apache.Flink.api.scala._ 

val topic = "allData" 

val prop = new Properties() 

prop.setProperty("bootstrap.servers", "kafkaQ1: 9092, 
kafkaQ@2:9092" ) 

prop.setProperty("group.id", "con2") 


val myConsumer = new FlinkKafkaConsumer@11[ String ] ( 
"hello" ,new SimpleStringSchema(),prop) 
// 获 取 Kafka 中 的 数据 


val data = env.addSource(myConsumer) 


// 最 新 的 国家 码 和 大 区 的 映射 关系 
val mapData = env.addSource(new MyRedisSourceScala) 


.broadcast // 可 以 把 数据 发 送 到 后 面 算 子 的 所 有 并 行 实例 中 


val resData = data.connect(mapData).flatMap(new CoF 
latMapFunction[String, mutable.Map[String, String], Str 


ing] { 


// 存 储 国家 和 大 区 的 映射 关系 
var allMap = mutable.Map[String, String ]() 


override def flatMapi(value: String, out: Collect 
or[String]): Unit = { 


val jsonObject = JSON.parseObject(value) 

val dt = jsonObject.getString("dt") 

val countryCode = jsonObject.getString( "country 
Code") 

// 获 取 大 区 

val area = allMap.get(countryCode) 


val jsonArray = jsonObject.getJSONArray ("data") 

for (i <- © to jsonArray.size()-1) { 
val jsonObject1 = jsonArray.getJSONObject(i) 
jsonObject1.put("area", area) 
jsonObject1.put("dt", dt) 
out.collect(jsonObject1.toString) 

} 

} 


override def flatMap2(value: mutable.Map[String, 
String], out: Collector[String]): Unit = { 
this.allMap = value 
}) 


val outTopic = "allDataClean" 

val outprop = new Properties() 

outprop.setProperty("bootstrap.servers", "kafkaQ@1:90 
92,kafkaQ@2:9092") 

// 第 一 种 解决 方案 ， 设 置 FLinkKafkaProducer611 中 的 事务 超 
时 时 间 

//prop.setProperty("transaction.timeout.ms",60000*1 


5+"") 
// 第 二 种 解决 方案 ， 设 置 Kafka 的 最 大 事务 超时 时 间 


val myProducer = new FlinkKafkaProducer@11[ String ] ( 
outTopic, new KeyedSerializationSchemaWrapper[ String ](n 
ew SimpleStringSchema), outprop, FlinkKafkaProducerée11. 
Semantic.EXACTLY_ONCE ) 

resData.addSink(myProducer) 


env.execute("DataCleanScala" ) 


} 


} 





(4) 模拟 产生 测试 数据 的 代码 。 





需求 : 模拟 产生 测试 日 志 数 据 ， 直 接 把 数据 和 输 
出 到 Kafka 的 allData 中 。 


代码 实现 如 下 。 





package xuwei.tech.utils; 


import org.apache.kafka.clients.producer.KafkaProducer ; 
import org.apache.kafka.clients.producer.ProducerRecord 


3 


import org.apache.kafka.common.serialization.StringSeri 
alizer; 


import java.text.SimpleDateFormat; 


import java.util.Date; 
import java.util.Properties; 
import java.util.Random; 


prt 
* Created by xuwei.tech 
*/ 
public class kafkaProducer { 
public static void main(String[] args) throws Excep 
tion{ 
Properties prop = new Properties(); 
// 指 定 kafka _ Broker 地 址 
prop.put("bootstrap.servers", "kafka01:9092,kaf 
ka02:9092"); 
// 指 定 Key Value 的 序列 化 方式 
prop.put("key.serializer", StringSerializer.cla 
ss.getName()); 
prop.put("value.serializer", StringSerializer.c 
lass.getName()); 
// 指 定 Topic 名 称 
String topic = "allData"; 


// 创 建 Producer 连 接 
KafkaProducer<String, String> producer = new Ka 
fkaProducer<String, String>(prop) ; 


//{"dt":"2019-01-01 10:11:11", “countryCode":"US 
oe "data" : [{"type" $ ssi"; "score" :0.3, "level" x "A"},{"type" 
>"s2","score":0.2,"level":"B"}]} 


// 生 产 消 息 
while(true) { 
String message = "{\"dt\":\""+getCurrentTim 
e()+"\",\"countryCode\":\""+ 
getCountryCode()+"\",\"data\":[{\"type\":\""+getRandomT 


ype()+"\", \"score\":"+getRandomScore()+", \"level\":\""+ 


getRandomLevel()+"\"},{\"type\":\""+getRandomType()+"\" 
\"score\":"+getRandomScore()+",\"level\":\""+getRandomL 
evel()+"\"}]}"; 

System.out.println(message); 

// 往 Kafka 的 指定 Topic 中 生产 数据 

producer.send(new ProducerRecord<String, St 
ring>(topic,message) ) ; 

Thread. sleep(20@@) ; 


} 
// 关 闭 链 接 
//producer.close(); 


} 


public static String getCurrentTime() { 
SimpleDateFormat sdf = new SimpleDateFormat("YY 
YY-MM-dd HH:mm:ss"); 
return sdf.format(new Date()); 


} 


public static String getCountryCode(){ 
String[] types = {"US","PK","KW","SA","IN"}; 
Random random = new Random(); 
int i = random.nextInt(types.length); 
return types[i]; 


public static String getRandomType(){ 
String[] types = {"s1","s2","s3","s4","s5"}; 
Random random = new Random(); 
int i = random.nextInt(types.length); 
return types[i]; 


} 


public static double getRandomScore(){ 
double[] types = {0.3,0.2,0.1,0.5,0.8}; 
Random random = new Random(); 


int i = random.nextInt(types.length) ; 
return types[i]; 


} 


public static String getRandomLevel(){ 
String[] types = {"A","A+t","B","C","D"}; 
Random random = new Random): 
int i = random.nextInt(types.length) ; 
return types[i]; 





(5) 代码 运行 步骤 。 


首先 执行 测试 程序 ， 持 续 往 Kafka 的 allData 中 
产生 数据 。 然 后 确认 Redis 中 的 大 区 和 国家 人 码 映 射 关 
系 是 侣 已 经 初始 化 。 最 后 运行 Flink 的 转换 清洗 程 
序 ， 局 动 一 个 Console 消 费 者 来 验证 allDataClean 中 
的 数据 。 如 果 能 正常 看 到 大 区 和 日 期 字段 ， 束 说 明 
实时 解析 这 部 分 的 代码 没有 问题 了 。 





(6) 打 JAR 包 的 配置 如 下 。 


<build> 
<plugins> 





<!-- 编译 插件 --> 
<plugin> 
<groupId>org.apache.maven.plugins</groupId> 
<artifactId>maven-compiler-plugin</artifact 
Id> 
<version>3.6.0</version> 
<configuration> 
<source>1.8</source> 
<target>1.8</target> 
<encoding>UTF-8</encoding> 
</configuration> 
</plugin> 
<!-- Scala 编 译 插件 --> 
<plugin> 
<groupId>net.alchim31.maven</groupId> 
<artifactId>scala-maven-plugin</artifactId> 
<version>3.1.6</version> 
<configuration> 
<scalaCompatVersion>2.11</scalaCompatVe 
rsion> 
<scalaVersion>2.11.12</scalaVersion> 
<encoding>UTF-8</encoding> 
</configuration> 
<executions> 
<execution> 
<id>compile-scala</id> 
<phase>compile</phase> 
<goals> 
<goal>add-source</goal> 
<goal>compile</goal> 
</goals> 
</execution> 
<execution> 
<id>test-compile-scala</id> 
<phase>test-compile</phase> 
<goals> 


<goal>add-source</goal> 
<goal>testCompile</goal> 
</goals> 
</execution> 
</executions> 
</plugin> 
<!-- 打 JAR 包 插件 (包含 所 有 依赖 ) --> 
<plugin> 
<groupId>org.apache.maven.plugins</groupId> 
<artifactId>maven-assembly-plugin</artifact 
Id> 
<version>2.6</version> 
<configuration> 
<descriptorRefs> 
<descriptorRef>jar-with-dependencie 
s</descriptorRef> 
</descriptorRefs> 
<archive> 
<manifest> 


<!-- 可 以 设置 JAR 包 的 入 口 类 (可 选 ) 


<mainClass></mainClass> 
</manifest> 
</archive> 
</configuration> 
<executions> 
<execution> 
<id>make-assembly</id> 
<phase>package</phase> 
<goals> 
<goal>single</goal> 
</goals> 
</execution> 
</executions> 
</plugin> 
</plugins> 


</build> 
(7) Sy TT IAS 


#!/bin/bash 

# 需要 在 /etc/profile 中 配置 FLINK_HOME 
flink run -m yarn-cluster \ 

-yqu default \ 

-ynm DataCleanJob \ 

-yn 2 \ 


-ys 2 \ 

-yjm 1024 \ 

-ytm 1024 \ 

-c xuwei.tech.DataClean \ 
/data/soft/jars/DataClean/DataClean-1.@-SNAPSHOT - jar-wi 
th-dependencies.jar 





完整 的 代码 可 以 查阅 本 书 的 配套 资源 。 


通过 Flume 对 allDataClean 中 的 数据 进行 解析 ， 
拆 分 并 输出 到 不 同 的 Topic (注意 ， 这 些 Topic 需 要 
提前 创建 ， 或 者 打开 Kafka 中 的 目 动 创建 Topic 机 
制 ) 中 。Flume 的 配置 文件 kafka-kafka- 
allDataClean.conf 内 容 如 下 。 


#Source 的 名 字 


al.sources = kafkaSource 
# Channel 的 名 字 
al.channels = fileChannel 
# Sink 的 名 字 

al.sinks = kafkaSink 


# 指定 Source 使 用 的 Channel 中 名 称 
al.sources.kafkaSource.channels = fileChannel 
# 指定 Sink 需 要 使 用 的 Channel 的 名 称 
al.sinks.kafkaSink.channel = fileChannel 


# kafkaSource 的 相关 配置 

# 定义 消 居 源 类 型 

al.sources.kafkaSource.type = org.apache.flume.source.k 
afka.KafkaSource 

al.sources.kafkaSource.batchSize = 500 
al.sources.kafkaSource.batchDurationMillis = 500 

# 定义 Kafka 服 务 地 址 
al.sources.kafkaSource.kafka.bootstrap.servers= kafkað1 
:9092 ,Kafka62 :9092 

# 配置 消费 的 Kafka Topic， 可 以 指定 多 个 ， 它 们 之 则 用 逗号 隔 开 
al.sources.kafkaSource.kafka.topics = allDataClean 

# 配置 消费 者 组 的 ID 


al.sources.kafkaSource.kafka.consumer.group.id = con1 


# FileChannel 的 相关 配置 

# Channel 类 型 

al.channels.fileChannel.type = file 
al.channels.fileChannel.checkpointDir = /data/filechann 
le data/checkpoint 

al.channels.fileChannel.dataDirs = /data/filechannle da 
ta/data 


# 拦截 器 的 相关 配置 
# 定义 拦截 器 


al.sources.kafkaSource.interceptors = i1 


# 设置 拦截 器 类 型 
al.sources.kafkaSource.interceptors.i1.type = regex_ext 
ractor 

# 设置 正则 表达 式 ， 匹 配 指定 的 数据 ， 这 样 设 置 会 在 数据 的 header 中 
增加 topic 参 数 
al.sources.kafkaSource.interceptors.il.regex = "type":" 
(\\w+)" 
al.sources.kafkaSource.interceptors.il.serializers = s1 
al1.sources.kafkaSource.interceptors.i1.serializers.s1.n 
ame = topic 


# Kafkasink 的 相关 配置 

al.sinks.kafkaSink.type = org.apache.flume.sink.kafka.K 
afkaSink 

al.sinks.kafkaSink.kafka.topic = %{topic} 
al.sinks.kafkaSink.kafka.bootstrap.servers= kafka01:909 
2,kafka@2: 9092, kafkaQ@3 :9092 
al.sinks.kafkaSink.kafka.flumeBatchSize = 20 
al.sinks.kafkaSink.kafka.producer.acks = 1 
a1.sinks.kafkaSink.kafka.producer.linger.ms = 1 
al.sinks.kafkaSink.kafka.producer.compression.type = sn 
appy 











Kafka 中 的 数据 还 需要 沙盘 存储 ， 便 于 后 期 进 
行 离线 数据 计算 ， 这 也 需要 使 用 Flume 进 行 。 每 天 
的 数据 存储 到 一 个 目录 中 ， 并 按照 数据 类 型 分 别 存 
储 到 不 同 的 目录 下 。 使 用 Flume 直 接 从 allDataClean 
中 消费 数据 即 可 。 Flume 的 配置 文件 kafka-file- 
allDataClean.conf 内 容 如 下 。 











#Source 的 名 称 

al.sources = kafkaSource 
# Channel 的 名 称 
al.channels = fileChannel 
# Sink 的 名 称 

al.sinks = hdfsSink 


# 指定 Source 使 用 的 Channel 的 名 称 
al.sources.kafkaSource.channels = fileChannel 

# 指定 sink 需 要 使 用 的 Channel 的 名 称 ,注意 这 里 是 Channel 
al.sinks.hdfsSink.channel = fileChannel 


# kafkaSource 的 相关 配置 

# 定义 消 居 源 类 型 

al.sources.kafkaSource.type = org.apache.flume.source.k 
afka.KafkaSource 

al.sources.kafkaSource.batchSize = 500 
al.sources.kafkaSource.batchDurationMillis = 500 

# 定义 Kafka 的 服务 地 址 
al.sources.kafkaSource.kafka.bootstrap.servers= kafkaQ@1 
29092, kafkaQ@2:9092 

# 配置 消费 的 Kafka Topic， 可 以 指定 多 个 ， 它 们 之 间 用 逗号 隔 开 
al.sources.kafkaSource.kafka.topics = allDataClean 

# 配置 消费 者 组 的 ID 


al.sources.kafkaSource.kafka.consumer.group.id = con2 


# FileChannel 

# Channel 类 型 

al.channels.fileChannel.type = file 
al.channels.fileChannel.checkpointDir = /data/filechann 
le _data_2/checkpoint 

al.channels.fileChannel.dataDirs = /data/filechannle_ da 
ta_2/data 

# iar REC 

# TE CE Bat 


al.sources.kafkaSource.interceptors = i1 

# 设置 拦截 器 类 型 
al.sources.kafkaSource.interceptors.i1.type = regex_ext 
ractor 

# 设置 正则 表达 式 ， 匹 配 指定 的 数据 ， 这 样 设 置 会 在 数据 的 header 中 
增加 log_ type 字段 
al.sources.kafkaSource.interceptors.il.regex = "type":" 
(\\w+)" 
al.sources.kafkaSource.interceptors.il.serializers = s1 
al.sources.kafkaSource.interceptors.i1.serializers.s1.n 
ame = log type 


# hdfssink 的 相关 配置 

al.sinks.hdfsSink.type = hdfs 
al.sinks.hdfsSink.hdfs.path=hdfs://hadoop@1:9000/data/a 
l1DataClean/%Y%m%d/%{log type} 
al.sinks.hdfsSink.hdfs.writeFormat = Text 
al.sinks.hdfsSink.hdfs.fileType = DataStream 
al.sinks.hdfsSink.hdfs.callTimeout = 3600000 


# 当 文件 大 小 为 52428866 字 节 时 ， 将 临时 文件 滚动 成 一 个 目标 文件 
al.sinks.hdfsSink.hdfs.rollSize = 52428800 

# 数 据 达到 该 数量 的 时 候 ， 将 临时 文件 深 动 成 目标 文件 
al.sinks.hdfsSink.hdfs.rollCount = @ 

# 每 隔 Ns 将 临时 文件 深 动 成 一 个 目标 文件 
al.sinks.hdfsSink.hdfs.rollInterval = 3600 


# 配 置 前 级 和 后 级 
al.sinks.hdfsSink.hdfs.filePrefix=run 
al.sinks.hdfsSink.hdfs.fileSuffix=.data 





11.2 ”实时 数据 报表 


11.2.1 需求 分 析 





实时 数据 报表 针对 一 些 需 要 实时 统计 的 业务 指 
标 进行 统计 。 在 这 里 以 直播 平台 和 短视 频 平台 中 的 
审核 指标 进行 统计 ， 针 对 审核 结果 ， 有 过 审 CE 
IR). RR CRA) 、 拉 黑 、 推 荐 、 上 首页 等 类 
型 。 我 们 和 希望 能 够 通过 图 表 实 时 展现 这 些 审核 指 
标 。 数 据 统计 的 间隔 满足 分 钟 级 别 即 可 ， 当 然 精 确 
到 秒 级 列 也 是 可 以 的 ， 上 其 体 需 要 看 是 任 能 够 满足 业 











11.2.2 IAA BIT 


实时 数据 报表 的 项 目 染 构 图 如 图 11.2 所 示 。 










or 存储 迟到 的 
和 数据 进行 抽取 转换 pial 











图 11.2 ”实时 数据 报表 项 目 架 构 


项 目 染 构 分 析 如 下 。 


。 使 用 Flume 采 集 前 端 业务 机 器 〈 应 用 服务 器 ) 上 
的 日 志 数 据 ， 使 用 Exec Source 监 控 指 定 文 件 日 
志 数 据 的 产生 。 这 里 注意 ， 需 要 使 用 tail -F， 不 
能 使 用 tail -f， 人 否则 会 导致 文件 重 命名 后 无 法 采 
集 新 文件 中 的 数据 。 

。 通 过 Flume 把 机 器 中 的 日 志 数 据 采 集 到 Kafka 的 
一 个 Topic 中 ，Topic 的 名 称 是 auditLog。 

。 通 过 Flink 读 取 Kafka 中 的 auditLog。 首 先进 行 过 
滤 操 作 ， 把 异常 数据 过 小 挥 。 然 后 使 用 
Watermark 解 决 数据 乱 序 的 问题 。 因 为 在 这 里 要 
进行 分 钟 级 别 的 汇总 统计 ， 上 所 以 如 果 想 保证 数 








据 的 准确 性 ， 束 要 处 理 数 据 乱 序 的 问题 。 可 以 
使 用 allowedLateness 设 置 一 个 最 大 允许 乱 序 时 
间 ， 有 再 使 用 sideOutputLateData 把 迟到 太 久 的 数 
据 收 集 起 来 ， 方 便 后 期 排查 问题 。 

再 通过 ElasticsearchSink 把 Flink 最 终 计 算 的 数据 
结果 保存 到 ES 中 。 

最 后 在 ES 后 添加 一 个 Kibana， 可 以 很 方便 地 查 
询 ES 中 的 数据 并 有 旦 创建 一 些 图 表 。 











11.2.3 ”项目 代码 实现 
实时 数据 报表 的 基本 环境 说 明 如 下 。 


Kafka 集 群 机 器 信息 : kafka01、kafka02、 
kafka03、kafka04、kafka05。 
ZooKeeper 集 群 信息 : zookeeper01、 


zookeeper02. zookeeper03. zookeeper04, 


zookeeper05. 

Hadoop 集 群 信息 : hadoop01, hadoop02. 
hadoop03. hadoop04. hadoop05. 

ES 集群 信息 : es01、es02、es03、es04、es05。 








和 主意; 针对 项 目 中 使 用 到 _ 的 
安装 和 部 普 步 又 在 这 里 不 再 欧 








使 用 Flume 将 前 端 业务 机 器 的 日 志 数 据 采 术 集 到 
Kafka 的 auditLog 中 。 


Flume 的 配置 文件 旬 e-kafka-auditLog.conf 内 容 
aR 





#Source 的 名 称 

al.sources = fileSource 

# Channel 的 名 称 

al.channels = memoryChannel 
# Sink 的 名 称 

al.sinks = kafkaSink 


# 指定 Source 使 用 的 Channel 的 名 称 
al.sources.fileSource.channels = memoryChannel 
# 指定 Sink 需 要 使 用 的 Channel 的 名 称 
al.sinks.kafkaSink.channel = memoryChannel 


# Source 的 相关 配置 
al.sources.fileSource.type = exec 
al.sources.fileSource.command = tail -F /data/log/audit 


Log. log 


# Channel 的 相关 配置 

al.channels.memoryChannel.type = memory 
al.channels.memoryChannel.capacity = 1000 
a1.channels.memoryChannel.transactionCapacity = 1000 
a1.channels.memoryChannel.byteCapacityBufferPercentage 
= 20 

a1.channels.memoryChannel.byteCapacity = 800000 


# Sink 相 关 配 置 

al.sinks.kafkaSink.type = org.apache.flume.sink.kafka.K 
afkaSink 

al.sinks.kafkaSink.kafka.topic = auditLog 
al.sinks.kafkaSink.kafka.bootstrap.servers= kafka01:909 
2,kafka@2:9092,kafkaQ@3 :9092 
al.sinks.kafkaSink.kafka.flumeBatchSize = 20 
al.sinks.kafkaSink.kafka.producer.acks = 1 
al.sinks.kafkaSink.kafka.producer.linger.ms = 1 
al.sinks.kafkaSink.kafka.producer.compression.type = sn 


appy 





Flink 实 时 统计 程序 代码 如 下 。 


(1) 添加 相关 Maven 依 赖 。 





<dependencies> 
<dependency> 
<groupId>org.apache. flink</groupId> 
<artifactId>flink-java</artifactId> 
<version>1.6.1</version> 


<!-- provided 在 这 里 表示 此 依赖 只 在 代码 编译 的 时 候 使 


用 ， 运 行 和 打包 的 时 候 不 使 用 --> 
<!--<scope>provided</scope>--> 
</dependency> 
<dependency> 
<groupId>org.apache. flink</groupId> 
<artifactId>flink-streaming-java_2.11</artifact 
Id> 
<version>1.6.1</version> 
<!--<scope>provided</scope>--> 
</dependency> 
<dependency> 
<groupId>org.apache. flink</groupId> 
<artifactId>flink-scala_2.11</artifactId> 
<version>1.6.1</version> 
<!--<scope>provided</scope>--> 
</dependency> 
<dependency> 
<groupId>org. apache. flink</groupId> 
<artifactIid>flink-streaming-scala_2.11</artifac 
tId> 
<version>1.6.1</version> 
<!--<scope>provided</scope>--> 
</dependency> 
<dependency> 
<groupId>org.apache.bahir</groupId> 
<artifactId>flink-connector-redis 2.11</artifac 
tId> 
<version>1.@</version> 
</dependency> 


<dependency> 
<groupId>org.apache. flink</groupId> 
<artifactId>flink-statebackend-rocksdb_ 2.11</ar 
tifactId> 
<version>1.6.1</version> 
</dependency> 


<dependency> 
<groupId>org. apache. flink</groupId> 
<artifactId>flink-connector-kafka-@.11 2.11</ar 
tifactId> 
<version>1.6.1</version> 
</dependency> 


<dependency> 
<groupId>org.apache.kafka</groupId> 
<artifactIid>kafka-clients</artifactId> 
<version>@.11.0.3</version> 

</dependency> 

<1-- 日 志 相 关 依 赖 --> 

<dependency> 
<groupId>org.slf4j</groupId> 
<artifactId>slf4j-api</artifactId> 
<version>1.7.25</version> 

</dependency> 


<dependency> 
<groupId>org.slf4j</groupId> 
<artifactId>slf4j-1log4j12</artifactId> 
<version>1.7.25</version> 

</dependency> 

<!-- Redis 依 赖 --> 

<dependency> 
<groupId>redis.clients</groupId> 
<artifactIid>jedis</artifactId> 
<version>2.9.0</version> 

</dependency> 

<!-- JSON 依 赖 --> 

<dependency> 
<groupId>com.alibaba</groupId> 
<artifactid>fastjson</artifactId> 


<version>1.2.44</version> 
</dependency> 


<!--ES 依 赖 --> 
<dependency> 
<groupId>org.apache. flink</groupId> 
<artifactIid>flink-connector-elasticsearch6 2.11 
</artifactId> 
<version>1.6.1</version> 
</dependency> 
</dependencies> 





(2) 聚合 统计 代码 实现 。 





首先 实现 目 定义 的 聚合 函数 。 


Java 代 人 码 实 现 如 下 。 





package xuwei.tech. function; 


import org.apache.Flink.api.java.tuple.Tuple; 

import org.apache.Flink.api.java.tuple.Tuple3; 

import org.apache.Flink.api.java.tuple.Tuple4; 

import org.apache.Flink.streaming.api. functions .windowi 
ng.WindowFunction; 

import org.apache.Flink.streaming.api.windowing.windows 
. TimeWindow; 

import org.apache.Flink.util.Collector; 


import java.text.SimpleDateFormat ; 
import java.util.ArrayList; 


import java.util.Collections; 
import java.util.Date; 
import java.util.Iterator; 


/** 


* 目 定义 聚合 函数 
* Created by xuwei.tech 
| 
public class MyAggFunction implements WindowFunction<Tu 
ple3<Long, String, String>, Tuple4<String, String, Stri 
ng, Long>, Tuple, TimeWindow>{ 
@Override 
public void apply(Tuple tuple, TimeWindow window, I 
terable<Tuple3<Long, String, String>> input, Collector< 
Tuple4<String, String, String, Long>> out) throws Excep 
tion { 
// 获 取 分 组 字段 信息 
String type = tuple.getField(@).toString(); 
String area = tuple.getField(1).toString(); 


Iterator<Tuple3<Long, String, String>> it = inp 
ut.iterator(); 


// 存 储 时 间 ， 这 是 为 了 获取 最 后 一 条 数据 的 时 间 


ArrayList<Long> arrayList = new ArrayList<>(); 


long count = Q; 
while (it.hasNext()) { 
Tuple3<Long, String, String> next = it.next 


(); 
arrayList.add(next.f@) ; 


count++; 


} 


System.err.println(Thread.currentThread().getId 


()+" ,Window 触 发 了 ， 数 据 条 数 : "+count ) ; 
// 排 序 


Collections.sort(arrayList) ; 


SimpleDateFormat sdf = new SimpleDateFormat ("yy 
yy-MM-dd HH:mm:ss"); 


String time = sdf.format(new Date(arrayList.get 
(arrayList.size() - 1))); 


| / AREA 
Tuple4<String, String, String, Long> res = new 
Tuple4<>(time, type, area, count); 


out.collect(res); 





在 Kafka 中 创建 需要 的 Topic， 命 令 如 下 。 


bin/kafka-topics.sh --create --topic lateLog --zookeepe 
r localhost:2181 -- 
partitions 5 --replication-factor 1 





下 面 开始 实现 具体 聚合 的 代码 。 





package xuwei.tech; 


import com.alibaba.fastjson. JSON; 


import com. 
import org. 
tion; 
import org. 
n; 

import org. 
text; 
import org. 


alibaba.fastjson. 
apache. i 


apache. 
apache. 


apache. 


StringSchema; 


import org. 
import org. 
import org. 
) 

import org. 
C; 

import org. 
ream; 
import org. 
reamSource; 
import org. 


apache. 
apache. 
apache. 
apache. 
apache. 


apache. 


apache. 


Flink. 


Flink. 


Flink. 


Flink. 


Flink. 


Flink. 


Flink. 


Flink. 


Flink. 


Flink. 


Flink. 


OutputStreamOperator ; 


import org.apache.Flink. 


pointConfig; 


import org.apache.Flink. 


mExecutionEnvironment ; 
import org.apache.Flink 


rs.TumblingEventTimeWindows ; 


api. 
api. 
api. 
api. 
api. 


api. 
streaming.api.CheckpointingMode 


JSONObject ; 
common. functions. FilterFunc 


common. functions .MapFunctio 
common. functions.RuntimeCon 
common.serialization.Simple 


java.tuple.Tuple3; 
java.tuple.Tuple4; 


streaming.api.TimeCharacteristi 
streaming.api.DataStream.DataSt 
streaming.api.DataStream.DataSt 
streaming.api.DataStream.Single 
streaming.api.environment. Check 


streaming.api.environment.Strea 


.streaming.api.windowing.assigne 


import org.apache.Flink.streaming.api.windowing.time.Ti 


me; 


import org.apache.Flink.streaming.connectors.elasticsea 
rch.ElasticsearchSinkFunction; 

import org.apache.Flink.streaming.connectors.elasticsea 
rch.RequestIndexer ; 
import org.apache.Flink.streaming.connectors.elasticsea 
rch6.ElasticsearchSink ; 
import org.apache.Flink.streaming.connectors.kafka.Flin 


kKafkaConsumer@11; 

import org.apache.Flink.streaming.connectors.kafka.Flin 
kKafkaProducer@11; 

import org.apache.Flink.streaming.util.serialization.Ke 
yedSerializationSchemaWrapper ; 

import org.apache.Flink.util.OutputTag; 

import org.apache.http.HttpHost; 

import org.elasticsearch. action. index. IndexRequest ; 
import org.elasticsearch.client.Requests; 

import org.slf4j.Logger; 

import org.slf4j.LoggerFactory; 

import xuwei.tech.function.MyAggFunction; 

import xuwei.tech.watermark.MyWatermark ; 


import java.text.ParseException; 
import java.text.SimpleDateFormat ; 
import java.util.*; 


[re 


* 
* Created by xuwei.tech 
*/ 
public class DataReport { 
private static Logger logger = LoggerFactory.getLog 
ger(DataReport.class) ; 


public static void main(String[] args) throws Excep 
tion{ 


StreamExecutionEnvironment env = StreamExecutio 
nEnvironment. getExecutionEnvironment() ; 


// 设 置 并 行 度 


env.setParallelism(5); 


// 设 置 使 用 EventTime 


env.setStreamTimeCharacteristic(TimeCharacteris 
tic.EventTime) ; 


//CheckPoint#t E. 

env.enableCheckpointing(600@@) ; 

env.getCheckpointConfig().setCheckpointingMode( 
CheckpointingMode.EXACTLY_ONCE) ; 

env.getCheckpointConfig().setMinPauseBetweenChe 
ckpoints(300@@) ; 

env.getCheckpointConfig().setCheckpointTimeout ( 
10000) ; 

env.getCheckpointConfig().setMaxConcurrentCheck 
points(1); 

env.getCheckpointConfig().enableExternalizedChe 
ckpoints(CheckpointConfig.ExternalizedCheckpointCleanup 
RETAIN ON CANCELLATION) ; 

// 设 置 StateBackend 


//env.setStateBackend(new RocksDBStateBackend(" 
hdfs://hadoop@1: 9000/flink/checkpoints", true) ); 


fre 

* 配置 kafkaSource 

*/ 
String topic = "auditLog"; 
Properties prop = new Properties(); 
prop.setProperty("bootstrap.servers", "kafkaQ@1:9 

Q92,kafkaQ@2:9092") ; 

prop.setProperty("group.id", "con1") ; 


FlinkKafkaConsumer@11<String> myConsumer = new 
FlinkKafkaConsumer@11<>(topic, new SimpleStringSchema() 


» prop); 


/** 
* 获取 Kafka 中 的 数据 


* 


* 审核 数据 格式 
ofi {"dt": "HRA lA [AA H Hr 分 秒 ]" "type": "At 
核 类 型 ", "username": "审核 人 员 姓 名 ", "area": "KIX "} 
米 
< 
DataStreamSource<String> data = env.addSource(m 
yConsumer) ; 


/** 
* 对 数据 进行 清洗 
*/ 
DataStream<Tuple3<Long, String, String>> mapDat 
a = data.map(new MapFunction<String, Tuple3<Long, Strin 
g, String>>() { 
@Override 
public Tuple3<Long, String, String> map(Str 
ing line) throws Exception { 
JSONObject jsonObject = JSON.parseObjec 
t(line) ; 


String dt = jsonObject.getString("dt") ; 
long time = Q; 
try { 
SimpleDateFormat sdf = new SimpleDa 
teFormat("yyyy-MM-dd HH:mm:ss"); 
Date parse = sdf.parse(dt); 
time = parse.getTime(); 
} catch (ParseException e) { 
// 也 可 以 把 这 个 日 志 存 储 到 其 他 介质 中 
logger.error(" 时 间 解 析 异 常 ，dt:" + d 
t, e.getCause()); 
} 


String type = jsonObject.getString("typ 


String area = jsonObject.getString("are 
a"); 


return new Tuple3<>(time, type, area); 


* TET E AA 
ay 
DataStream<Tuple3<Long, String, String>> filter 
Data = mapData.filter(new 
FilterFunction<Tuple3<Long, String, String>>() { 
@Override 
public boolean filter(Tuple3<Long, String, 
String> value) throws Exception { 
boolean flag = true; 
if (value.f@ == 0) { 
flag = false; 


} 
return flag; 
} 
}); 
// 保 存 延 迟 太 和 久 的 数据 


OutputTag<Tuple3<Long, String, String>> outputT 
ag = new OutputTag<Tuple3<Long, 
String, String>>("late-data"){}; 


/** 
* 窗口 统计 操作 
*7 


SingleOutputStreamOperator<Tuple4<String, Strin 
g, String, Long>> resultData = 
filterData.assignTimestampsAndWatermarks(new MyWatermar 


k()) 
.keyBy(1, 2) 
.window(TumblingEventTimeWindows.of(Tim 
e.seconds(60) ) ) 
.allowedLateness(Time.seconds(30))// 


许 迟 到 36s 
. sideOutputLateData(outputTag) //i KEIR 
太 久 的 数据 
.apply(new MyAggFunction()); 
// 获 取 延 迟 太 和 久 的 数据 


DataStream<Tuple3<Long, String, String>> sideOu 
tput = resultData.getSideOutput 
(outputTag) ; 


// 把 延迟 的 数据 存储 到 Kafka 中 

String outTopic = "lateLog"; 

Properties outprop = new Properties(); 

outprop.setProperty("bootstrap.servers", "kafka@ 
1:9092,kafkaQ@2:9092") ; 

outprop.setProperty("transaction.timeout.ms", 62 
Q00*15+""); 

FlinkKafkaProducer@11<String> myProducer = new 
FlinkKafkaProducer@11<String> 
(outTopic, new KeyedSerializationSchemaWrapper<String>( 
new SimpleStringSchema()), 
outprop, FlinkKafkaProducer@11.Semantic.EXACTLY_ONCE) ; 


SideOutput.map(new MapFunction<Tuple3<Long, Stri 
ng,String>, String>() { 
@Override 
public String map(Tuple3<Long, String, Stri 
ng> value) throws Exception { 
return value. f0+"\t"+value.f1+"\t"+valu 
e.f2; 


}) .addSink(myProducer) ; 


/** 

* 把 计算 的 结果 存储 到 ES 中 

A 

List<HttpHost> httpHosts = new ArrayList<>(); 
httpHosts.add(new HttpHost("es@1", 9200, "http" 


))s 


ElasticsearchSink.Builder<Tuple4<String, String 
， String, Long>> esSinkBuilder = 
new ElasticsearchSink.Builder<Tuple4<String, String, St 
ring, Long>>( 
httpHosts, 
new ElasticsearchSinkFunction<Tuple4<St 
ring, String, String, Long>>() { 
public IndexRequest createIndexRequ 
est(Tuple4<String, String, 
String, Long> element) { 
Map<String, Object> json = new 
HashMap<>(); 
json.put("time",element.f@) ; 
json.put("type",element.f1) ; 
json.put("area",element.f2) ; 
json.put( "count", element. #3) ; 


// 使 用 time+type+area 保 证 ID 唯一 
String id = element.f@.replace( 


> _")t"-"t+element. 1+ 
+element.f2; 


return Requests. indexRequest() 
. index ("auditindex" ) 
.type("audittype" ) 
.id(id) 
.source(json) ; 


} 


@Override 
public void process(Tuple4<String, 


String, String, Long> element, 
RuntimeContext ctx, RequestIndexer indexer) { 


indexer.add(createIndexRequest( 


element)); 


大 一 些 


} 
} 


); 
// 设 置 批量 写 数 据 的 缓冲 区 大 小 ， 实 际 工作 中 这 个 值 需要 调 


esSinkBuilder.setBulkFlushMaxActions(1); 
resultData.addSink(esSinkBuilder.build()); 


env.execute("DataReport") ; 





Scala 代 码 实 现 如 下 。 





package xuwei.tech 


import 
import 


import 
import 
text 

import 


java.text.{ParseException, SimpleDateFormat } 
java.util.{Date, Properties} 


com.alibaba.fastjson. JSON 
org.apache.Flink.api.common. functions .RuntimeCon 


org.apache.Flink.api.common.serialization.Simple 


StringSchema 


import org.apache.Flink.api.java.tuple.{Tuple, Tuple4} 


import org.apache.Flink.streaming. 
pointConfig 

import org.apache.Flink.streaming. 
rWithPeriodicWatermarks 

import org.apache.Flink.streaming. 
StreamExecutionEnvironment } 
import org.apache.Flink.streaming. 
ndowFunction 

import org.apache.Flink.streaming. 
rk 

import org.apache.Flink.streaming. 
rs.TumblingEventTimeWindows 

import org.apache.Flink.streaming. 
me 

import org.apache.Flink.streaming. 
. TimeWindow 

import org.apache.Flink.streaming. 
e, TimeCharacteristic} 

import org.apache.Flink.streaming. 


api.environment. Check 
api.functions.Assigne 
api.scala.{OutputTag, 
api.scala.function.Wi 
api.watermark.Waterma 
api.windowing.assigne 
api.windowing.time.Ti 
api.windowing.windows 
api.{CheckpointingMod 


connectors.elasticsea 


rch.{ElasticsearchSinkFunction, RequestIndexer} 


import org.apache.Flink.streaming. 


connectors.kafka.{Fli 


nkKafkaConsumer@11, FlinkKafkaProducer@11} 


import org.apache.Flink.streaming. 
yedSerializationSchemaWrapper 


util.serialization.Ke 


import org.apache.Flink.util.Collector 


import org.apache.http.HttpHost 


import org.elasticsearch. action. index. IndexRequest 
import org.elasticsearch.client.Requests 


import org.slf4j.LoggerFactory 


import scala.collection.mutable.ArrayBuffer 


import scala.util.Sorting 
/** 
* Created by xuwei.tech 


2y 


object DataReportScala { 
val logger = LoggerFactory.getLogger("DataReportScala 


") 


def main(args: Array[String]): Unit = { 
val env = StreamExecutionEnvironment. getExecutionEn 
vironment 


// 修 改 并 行 度 

env.setParallelism(5) 

env.setStreamTimeCharacteristic(TimeCharacteristic. 
EventTime) 


//CheckPoint 配 置 

env.enableCheckpointing(6000@) 

env.getCheckpointConfig.setCheckpointingMode(Checkp 
ointingMode.EXACTLY_ONCE) 

env.getCheckpointConfig.setMinPauseBetweenCheckpoin 
ts (30000) 

env.getCheckpointConfig. setCheckpointTimeout (100@@ ) 

env.getCheckpointConfig.setMaxConcurrentCheckpoints 
(1) 

env. getCheckpointConfig.enableExternalizedCheckpoin 
ts(CheckpointConfig.ExternalizedCheckpointCleanup.RETAI 
N_ON_CANCELLATION) 


// 设 置 StateBackend 


//env.setStateBackend(new RocksDBStateBackend("hdfs 
://hadoop61:9666/flink/checkpoints" ,true)) 


// 隐 式 转换 

import org.apache.Flink.api.scala._ 
val topic = "auditLog" 

val prop = new Properties() 


prop.setProperty("bootstrap.servers", "kafka01:9092 
» kafka@2:9092") 
prop.setProperty("group.id", "con2") 


val myConsumer = new FlinkKafkaConsumer@11[ String ] ( 
topic, new SimpleStringSchema(), 
prop) P 

// 获 取 Kafka 中 的 数据 


val data = env.addSource(myConsumer) 


// 对 数据 进行 清洗 
val mapData = data.map(line => { 
val jsonObject = JSON.parseObject(line) 
val dt = jsonObject.getString("dt") 
var time = @L 
try { 
val sdf = new SimpleDateFormat ("yyyy-MM-dd HH:m 
m:ss" 
val parse = sdf.parse(dt) 
time = parse.getTime 
} catch { 
case e: ParseException => { 
logger .error(" 时 间 解 析 异 常 ，dt:" + dt, e.getCa 
use) 


val type1 = jsonObject.getString("type") 
val area = jsonObject.getString("area" 


(time, type1, area) 
}) 


// 过 滤 挥 异常 数据 
val filterData = mapData.filter( . 1 > 0) 


// 保 存 延 迟 太 和 久 的 数据 

// 注意 : 针对 Java 代 码 需要 引入 org.apache.Flink.util.0u 
tputTag 

// 针 对 Scala 代 码 需 要 引入 org.apache.Flink.streaming.ap 
i.scala.OutputTag 

val outputTag = new OutputTag[Tuple3[Long, String, 
String]]("late-data") {} 


val resultData = filterData.assignTimestampsAndWate 
rmarks(new AssignerWithPeriodicWatermarks 
[(Long, String, String)] { 
var currentMaxTimestamp = 6L 
var maxOutOfOrderness = 10@@@L // 允许 的 最 大 乱 序 时 
lH] 210s 


override def getCurrentWatermark = new Watermark ( 
currentMaxTimestamp - maxOutOfOrderness) 


override def extractTimestamp(element: (Long, Str 
ing, String), previousElementTimestamp: Long) = { 
val timestamp = element. 1 
currentMaxTimestamp = Math.max(timestamp, curre 
ntMaxTimestamp) 
timestamp 
} 
}).keyBy(1, 2) 
.window(TumblingEventTimeWindows.of (Time.seconds( 
60) )) 


. allowedLateness(Time.seconds(30)) // 人 允许 迟到 36s 
.sideOutputLateData(outputTag)// 收 集 延 迟 太 久 的 数据 
.apply(new WindowFunction[Tuple3[Long, String, St 
ring], Tuple4[String, String, 
String, Long], Tuple, TimeWindow] { 
override def apply(key: Tuple, window: Time 
Window, input: Iterable[(Long, String, String)], out: C 


ollector[Tuple4[String, String, String, Long]]) = { 
// 获 取 分 组 字段 信息 
val type1 = key.getField(@) .toString 
val area = key.getField(1).toString 
val it = input.iterator 
// 存 储 时 间 ， 这 是 为 了 获取 最 后 一 条 数据 的 时 间 
val arrBuf = ArrayBuffer[Long]() 
var count = @ 
while (it.hasNext) { 
val next = it.next 
arrBuf.append(next._1) 
count += 1 
} 
println(Thread.currentThread.getId + ",Wi 
ndow 触 发 了 ， 数 据 条 数 : " + count) 
// 排 序 


val arr = arrBuf.toArray 
Sorting. quickSort(arr) 


val sdf = new SimpleDateFormat ("yyyy-MM-d 
d HH:mm:ss") 

val time = sdf.format(new Date(arr.last)) 

// 组 并 结果 

val res = new Tuple4[String, String, Stri 
ng, Long](time, typel, area, count) 

out.collect(res) 

} 
}) 


// 获 取 延 迟 太 和 久 的 数据 
val sideOutput = resultData.getSideOutput[ Tuple3[ Lo 
ng, String, String] ](outputTag) 


// 把 延迟 的 数据 存储 到 Kafka 中 
val outTopic = "lateLog" 
val outprop = new Properties() 


outprop.setProperty("bootstrap.servers", "kafka01:9 
Q92,kafkaQ@2:9092") 
outprop.setProperty("transaction.timeout.ms", 60000 
x 15 + mn) 


val myProducer = new FlinkKafkaProducer@11[ String ] ( 
outTopic, new KeyedSerializationSchemaWrapper|[ String ](n 
ew SimpleStringSchema()), outprop, FlinkKafkaProducer@1 
1.Semantic.EXACTLY_ONCE) 
SideOutput.map(tup => tup. 1 + "\t" + tup. 2 + "\t" 
+ tup._3).addSink(myProducer) 


// 把 计算 的 结果 存储 到 ES 中 
val httpHosts = new java.util.ArrayList[HttpHost ] 
httpHosts.add(new HttpHost("es@1", 9200, "http")) 


val esSinkBuilder = new org.apache.Flink.streaming. 
connectors.elasticsearch6.ElasticsearchSink.Builder[Tup 
le4[String, String, String, Long] ]( 
httpHosts, 
new ElasticsearchSinkFunction[Tuple4[String, Stri 
ng, String, Long]] { 
def createIndexRequest(element: Tuple4[String, 
String, String, Long]): IndexRequest = { 
val json = new java.util.HashMap[String, Any] 
json.put( "time", element. f@) 
json.put( "type", element. f1) 
json.put( "area", element. f2) 
json.put( "count", element.f3) 
val id = element.f@.replace(" ", "_") + "-" + 
element.f1 + "-" + element. f2 


return Requests. indexRequest() 
. index("auditindex" ) 


.'type' ("audittype" ) 
.id(id) 
.source(json) 


} 


override def process(element: Tuple4[String, St 

ring, String, Long], runtimeContext: RuntimeContext, re 
questIndexer: RequestIndexer) = { 

requestIndexer.add(createIndexRequest (element 


)) 


esSinkBuilder.setBulkFlushMaxActions(1) 


resultData.addSink(esSinkBuilder.build() ) 


env.execute("DataReportScala" ) 





C3) 模拟 产生 测试 数据 的 代码 。 





package xuwei.tech.utils; 


import org.apache.kafka.clients.producer.KafkaProducer ; 
import org.apache.kafka.clients.producer.ProducerRecord 


3 


import org.apache.kafka.common.serialization.StringSeri 
alizer; 


import java.text.SimpleDateFormat ; 


import java.util.Date; 
import java.util.Properties; 
import java.util.Random; 


/** 
* 模拟 产生 测试 数据 ， 把 日 志 数 据 直 接 写 到 auditLog 中 
* Created by xuwei.tech 
*/ 

public class kafkaProducerDataReport { 


public static void main(String[] args) throws Excep 

tion{ 

Properties prop = new Properties(); 

// 指 定 Kafka _ Broker 地 址 

prop.put("bootstrap.servers", "kafka01:9092,kaf 
kaQ@2:9092") ; 

// 指 定 Key Value 的 序列 化 方式 

prop.put("key.serializer", StringSerializer.cla 
ss.getName()); 

prop.put("value.serializer", StringSerializer.c 
lass.getName()); 

// 指 定 Topic 名 称 

String topic = "“auditLog"; 


// 创 建 Producer 链 接 
KafkaProducer<String, String> producer = new Ka 
fkaProducer<String, String>(prop) ; 


//{"dt":"2019-01-01 10:11:22", "type": "shelf", “u 


sername": "shenhel", "area": "AREA US"} 


// 生 产 消 息 
while(true) { 
String message = "{\"dt\":\""+getCurrentTim 
e()+"\",\"type\":\"+getRandomType()+"\", \"username\": \" 
"+getRandomUsername()+"\", \"area\":\""+getRandomArea()+ 


MAES 
System.out.println(message) ; 
producer.send(new ProducerRecord<String, St 
ring>(topic,message) ) ; 
Thread. sleep(10@@) ; 


} 
// 关 闭 链接 
//producer.close(); 


} 


public static String getCurrentTime() { 
SimpleDateFormat sdf = new SimpleDateFormat("YY 
YY-MM-dd HH:mm:ss"); 
return sdf.format(new Date()); 


} 


public static String getRandomArea(){ 
String[] types = {"AREA US","AREA AR","AREA_IN" 
, "AREA ID"}; 
Random random = new Random(); 
int i = random.nextInt(types.length) ; 
return types[i]; 


} 


public static String getRandomType(){ 
String[] types = {"shelf","unshelf", "black", "ch 
lid shelf", "child_unshelf"}; 
Random random = new Random(); 
int i = random.nextInt(types. length) ; 
return types[i]; 


} 


public static String getRandomUsername(){ 


String[] types = {"shenhe1", "shenhe2", "shenhe3" 
s shenhe4","shenhe5"}; 


Random random = new Random(); 
int i = random.nextInt(types.length) ; 
return types[i]; 





(4) 代码 运行 步 又 。 


首先 执行 测试 程序 ， 持 续 在 Kafka 的 allAudit 中 
产生 数据 。 然 后 运行 Flink 的 聚合 统计 程序 ， 到 ES 中 
BABE. WRA LIE APIA, Wiw HKR 
合 统计 这 部 分 的 代码 没有 问题 了 。 








(5) 打 JAR 包 的 配置 如 下 。 








<build> 


<plugins> 
<1-- 编译 插件 --> 
<plugin> 
<groupId>org.apache.maven.plugins</groupId> 
<artifactId>maven-compiler-plugin</artifact 
Id> 
<version>3.6.0</version> 
<configuration> 
<source>1.8</source> 
<target>1.8</target> 
<encoding>UTF-8</encoding> 


</configuration> 
</plugin> 
<!-- Scala 编 译 插件 --> 
<plugin> 
<groupId>net.alchim31.maven</groupId> 
<artifactId>scala-maven-plugin</artifactId> 
<version>3.1.6</version> 
<configuration> 
<scalaCompatVersion>2.11</scalaCompatVe 
rsion> 
<scalaVersion>2.11.12</scalaVersion> 
<encoding>UTF-8</encoding> 
</configuration> 
<executions> 
<execution> 
<id>compile-scala</id> 
<phase>compile</phase> 
<goals> 
<goal>add-source</goal> 
<goal>compile</goal> 
</goals> 
</execution> 
<execution> 
<id>test-compile-scala</id> 
<phase>test-compile</phase> 
<goals> 
<goal>add-source</goal> 
<goal>testCompile</goal> 
</goals> 
</execution> 
</executions> 
</plugin> 
<!-- 打 JAR 包 插件 (会 包含 所 有 依赖 ) --> 
<plugin> 
<groupId>org.apache.maven.plugins</groupId> 
<artifactId>maven-assembly-plugin</artifact 


Id> 
<version>2.6</version> 
<configuration> 
<descriptorRefs> 
<descriptorRef>jar-with-dependencie 
s</descriptorRef> 
</descriptorRefs> 
<archive> 
<manifest> 


<!-- 可 以 设置 JAR 包 的 入 口 类 (可 选 ) 


<mainClass></mainClass> 
</manifest> 
</archive> 
</configuration> 
<executions> 
<execution> 
<id>make-assembly</id> 
<phase>package</phase> 
<goals> 
<goal>single</goal> 
</goals> 
</execution> 
</executions> 
</plugin> 
</plugins> 
</build> 





(6) 封装 执行 脚本 。 





#!/bin/bash 
flink run -m yarn-cluster \ 
-yqu default \ 


-ynm DataReportJjob \ 

-yn 2 \ 

-ys 2 \ 

-yjm 1024 \ 

-ytm 1024 \ 

-c xuwei.tech.DataReport \ 
/data/soft/jars/DataReport/DataReport-1.0-SNAPSHOT -jar- 
with-dependencies.jar 





完整 的 代码 可 以 在 本 书 的 配套 资源 中 得 阅 。 


在 Kibana 中 配置 ES 中 的 Index 信息 ， 根 据 业 务 
需求 创建 对 应 的 图 表 〈 折 线 图 、 饼 图 等 ) 。 效 果 如 
图 11.3 所 示 。 
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图 11.3 ”Kibana 展 现 效果 





